【新人求助】Python 爬虫求助

Dexter1203 · 发表于 2020-8-2 13:09:04

我是学爬虫的新人，最近在B站看了一个Python爬虫教程之后，准备自己找个网站练手，图片下载地址找到了，但是发现无法下载下来，Python一爬图片就显示资源不存在
目标网址“https://www.nvshens.net/g/33032/”，我最终的目标是爬取高清大图，点击网页中的图片就能看到高清大图图片的地址我在网页中找到的是下面代码中的url 连接，但是我不知道为啥无法下载，浏览器和迅雷等下载器，直接下载该图片地址也无法下载。
求大神帮我分析一下，为啥我这无法下载，是不是图片地址找错了，求告知真正的地址是啥如何找

# -*- coding = utf-8 -*-
# @time : 2020/7/15 19:29
# @Author : Dexter1203
# @File : test2.py
# @Software : PyCharm
import urllib.request
import urllib
head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
}
url = 'https://img.onvshen.com:85/gallery/27912/33032/002.jpg'
url2 = 'https://img.onvshen.com:85/gallery/27912/33032/s/0.jpg'
# resource = requests.get(url)
# print(type(resource))
# urlretrieve(url,"2.jpg")
# with open("2.jpg",mode="wb") as fh:
# fh.write(resource.content)
urllib.request.urlretrieve(url,'1.jpg')

复制代码

错误代码：

urllib.error.HTTPError: HTTP Error 301: The HTTP server returned a redirect error that would lead to an infinite loop.
The last 30x error message was:
Moved Permanently

猪不会转弯 · 发表于 2020-8-6 09:23:05

重定向的问题的话可以禁止重定向
requests的方法是
requests.get(url, allow_redirects=false)
没有使用过urllib

Dexter1203 · 发表于 2020-8-8 09:41:42

import requests
headers = {
'Connection': 'keep-alive',
'Pragma': 'no-cache',
'Cache-Control': 'no-cache',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
'Accept': 'image/webp,image/apng,image/*,*/*;q=0.8',
'Sec-Fetch-Site': 'cross-site',
'Sec-Fetch-Mode': 'no-cors',
'Sec-Fetch-Dest': 'image',
'Referer': 'https://www.nvshens.net/g/33032/',
'Accept-Language': 'zh-CN,zh;q=0.9',
}
link = ['https://img.onvshen.com:85/gallery/27912/33032/0.jpg']
print(link[0])
with open('0.jpg','wb') as f:
f.write(requests.get(url=link,headers=headers).content)

复制代码

贴吧大神给出了解决办法，要在头部里面加一个 Referer，原理还不知道，后面再研究

		自动登录	找回密码
密码			立即注册

[求助] 【新人求助】Python 爬虫求助