找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 309|回复: 6

[求助] 爬虫小白求助:爬取整个页面就出现问题,求各位大神...

2

主题

7

帖子

7

积分

贫民

积分
7
cp9 发表于 2019-3-28 13:37:41 | 显示全部楼层 |阅读模式
from urllib import request
class Spider:
def __init__(self, page):    self.page = pagedef load_page(self):    url = 'http://www.neihanba.com/dz/list_' + self.page + '.html'  # 各个段子吧页面的url    user_agent = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"    headers = ("User-Agent", user_agent)    opener = request.build_opener()    opener.add_handlers = [headers]    resp**e = opener.open(url)    html = resp**e.read()    return html
def main(): page = input('请输入页码:') myspider = Spider(page) the_page = myspider.load_page()
print(the_page)
if name == 'main': main()
执行结果: Traceback (most recent call last): File "D:/python保存库/spider/daunzi_spider.py", line 44, in <module> main() File "D:/python保存库/spider/daunzi_spider.py", line 37, in main the_page = myspider.load_page() File "D:/python保存库/spider/daunzi_spider.py", line 22, in load_page resp**e = opener.open(url) File "D:\python3.6.1\lib\urllib\request.py", line 526, in open resp**e = self._open(req, data) File "D:\python3.6.1\lib\urllib\request.py", line 544, in _open '_open', req) File "D:\python3.6.1\lib\urllib\request.py", line 504, in _call_chain result = func(*args) File "D:\python3.6.1\lib\urllib\request.py", line 1346, in http_open return self.do_open(http.client.HTTPConnection, req) File "D:\python3.6.1\lib\urllib\request.py", line 1321, in do_open r = h.getresp**e() File "D:\python3.6.1\lib\http\client.py", line 1331, in getresp**e resp**e.begin() File "D:\python3.6.1\lib\http\client.py", line 297, in begin version, status, reason = self._read_status() File "D:\python3.6.1\lib\http\client.py", line 258, in _read_status line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1") File "D:\python3.6.1\lib\socket.py", line 586, in readinto return self._sock.recv_into(b)
ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接。

回复

使用道具 举报

0

主题

421

帖子

421

积分

骑士

积分
421
sheeboard 发表于 2019-3-28 15:26:30 | 显示全部楼层
网站打不开
回复 支持 反对

使用道具 举报

2

主题

7

帖子

7

积分

贫民

积分
7
cp9  楼主| 发表于 2019-3-29 10:30:48 | 显示全部楼层

是网站反爬虫吗?能怎么处理吗?
回复 支持 反对

使用道具 举报

0

主题

421

帖子

421

积分

骑士

积分
421
sheeboard 发表于 2019-3-29 10:34:41 | 显示全部楼层
cp9 发表于 2019-3-29 10:30
是网站反爬虫吗?能怎么处理吗?

不是反爬,就是
  1. http://www.neihanba.com/
复制代码
这个网站打不开,ping不通。
回复 支持 反对

使用道具 举报

0

主题

3

帖子

3

积分

贫民

积分
3
eruy 发表于 2019-3-30 17:12:32 | 显示全部楼层
兄弟,你协议搞错了,是https,不是http

另外,建议发帖的时候,还是吧格式整理一下,这样看,好累。
回复 支持 反对

使用道具 举报

2

主题

7

帖子

7

积分

贫民

积分
7
cp9  楼主| 发表于 2019-4-7 16:17:49 | 显示全部楼层
sheeboard 发表于 2019-3-29 10:34
不是反爬,就是这个网站打不开,ping不通。

好的,谢谢
回复 支持 反对

使用道具 举报

2

主题

7

帖子

7

积分

贫民

积分
7
cp9  楼主| 发表于 2019-4-8 09:36:48 | 显示全部楼层
eruy 发表于 2019-3-30 17:12
兄弟,你协议搞错了,是https,不是http

另外,建议发帖的时候,还是吧格式整理一下,这样看,好 ...

谢谢哈!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表