爬取网页图片，但无法定位图片源地址

牛马星的牛马 · 发表于 2022-3-12 22:41:47

代码如下：

import requests,os,bs4,re
os.makedirs('comic',exist_ok=True)
url='https://www.mangabz.com/m219696/'
res=requests.get(url)
soup=bs4.BeautifulSoup(res.text,'html.parser')
message=soup.select('.bottom-page2')
numRegex=re.compile(r'(-)(\d{2})')
pages=numRegex.search(str(message))
pages=int(pages.group(2))
for i in range(1,pages+1):
urls=url+'#ipg'+str(i)
res=requests.get(urls)
soup=bs4.BeautifulSoup(res.text,'html.parser')
img_message=soup.select('body[class style="padding-top: 74px;"] div')
print(img_message)
img_url=img_message.get('src')
print('Downloading...%s'%(img_url))
res=requests.get(img_url)
re.raise_for_status()
imgFile=open(str(i),'wb')
for chunk in res.iter_content(10000):
imgFile.write(chunk)
imgFile.close()
print('Done')

复制代码

qz1zxwzy · 发表于 2022-3-23 16:22:59

直接找最近的那个id标签
select('#imgloading img')

yixianliu · 发表于 2022-3-24 16:59:46

qz1zxwzy 发表于 2022-3-23 16:22
直接找最近的那个id标签
select('#imgloading img')

同理....

牛马星的牛马 · 发表于 2022-3-29 17:24:36

qz1zxwzy 发表于 2022-3-23 16:22
直接找最近的那个id标签
select('#imgloading img')

已经试过了，这样找不到。id='imgloading'不是img src=...的母标签，二者是并列的。

牛马星的牛马 · 发表于 2022-3-29 17:29:22

牛马星的牛马发表于 2022-3-29 17:24
已经试过了，这样找不到。id='imgloading'不是img src=...的母标签，二者是并列的。 ...

如果不直接查找图片源地址

ztong71 · 发表于 2022-4-5 16:04:29

from requests_html import HTMLSession
url = 'https://www.mangabz.com/m219696/'
session = HTMLSession()
for url in [f'https://www.mangabz.com/m219696-p{page}' for page in range(1, 30)]:
html = session.get(url).html
html.render(sleep=0.5)
src = html.find('#cp_image', first=True).attrs['src']
headers = {'referer': url}
resp**e = session.get(src,headers=headers, verify=False)
with open(src.split('?')[0].split('/')[-1], 'wb') as fp:
fp.write(resp**e.content)

cxdl258 · 发表于 2022-5-7 11:42:32

网页是动态生成的，直接无法获取。你看网页源代码根本没得

sekmart · 发表于 2022-5-10 18:30:42

from selenium import webdriver
import time
from lxml import etree

url = 'https://www.mangabz.com/m219696/'
browser = webdriver.Chrome()
time.sleep(3)
browser.get(url)
time.sleep(5)
html = browser.page_source
parer_html = etree.HTML(html)
message = parer_html.xpath('/html/body/div[2]/div/img/@src')[0]
print(message)
browser.quit()

sekmart · 发表于 2022-5-12 15:10:29

from selenium import webdriver
import time
from lxml import etree
url = 'https://www.mangabz.com/m219696/'
browser = webdriver.Chrome()
time.sleep(3)
browser.get(url)
time.sleep(5)
html = browser.page_source
parer_html = etree.HTML(html)
message = parer_html.xpath('/html/body/div[2]/div/img/@src')[0]
print(message)
browser.quit()

复制代码

		自动登录	找回密码
密码			立即注册

[求助] 爬取网页图片，但无法定位图片源地址