爬虫小白求助：爬取整个页面就出现问题，求各位大神...

cp9 · 发表于 2019-3-28 13:37:41

from urllib import request

class Spider:

def __init__(self, page): self.page = pagedef load_page(self): url = 'http://www.neihanba.com/dz/list_' + self.page + '.html' # 各个段子吧页面的url user_agent = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36" headers = ("User-Agent", user_agent) opener = request.build_opener() opener.add_handlers = [headers] resp**e = opener.open(url) html = resp**e.read() return html

def main(): page = input('请输入页码：') myspider = Spider(page) the_page = myspider.load_page()

print(the_page)

if name == 'main': main()

执行结果： Traceback (most recent call last): File "D:/python保存库/spider/daunzi_spider.py", line 44, in <module> main() File "D:/python保存库/spider/daunzi_spider.py", line 37, in main the_page = myspider.load_page() File "D:/python保存库/spider/daunzi_spider.py", line 22, in load_page resp**e = opener.open(url) File "D:\python3.6.1\lib\urllib\request.py", line 526, in open resp**e = self._open(req, data) File "D:\python3.6.1\lib\urllib\request.py", line 544, in _open '_open', req) File "D:\python3.6.1\lib\urllib\request.py", line 504, in _call_chain result = func(*args) File "D:\python3.6.1\lib\urllib\request.py", line 1346, in http_open return self.do_open(http.client.HTTPConnection, req) File "D:\python3.6.1\lib\urllib\request.py", line 1321, in do_open r = h.getresp**e() File "D:\python3.6.1\lib\http\client.py", line 1331, in getresp**e resp**e.begin() File "D:\python3.6.1\lib\http\client.py", line 297, in begin version, status, reason = self._read_status() File "D:\python3.6.1\lib\http\client.py", line 258, in _read_status line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1") File "D:\python3.6.1\lib\socket.py", line 586, in readinto return self._sock.recv_into(b)

ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接。

sheeboard · 发表于 2019-3-28 15:26:30

网站打不开

cp9 · 发表于 2019-3-29 10:30:48

sheeboard 发表于 2019-3-28 15:26
网站打不开

是网站反爬虫吗？能怎么处理吗？

sheeboard · 发表于 2019-3-29 10:34:41

cp9 发表于 2019-3-29 10:30
是网站反爬虫吗？能怎么处理吗？

不是反爬，就是

http://www.neihanba.com/

复制代码

这个网站打不开，ping不通。

eruy · 发表于 2019-3-30 17:12:32

兄弟，你协议搞错了，是https，不是http

另外，建议发帖的时候，还是吧格式整理一下，这样看，好累。

cp9 · 发表于 2019-4-7 16:17:49

sheeboard 发表于 2019-3-29 10:34
不是反爬，就是这个网站打不开，ping不通。

好的，谢谢

cp9 · 发表于 2019-4-8 09:36:48

eruy 发表于 2019-3-30 17:12
兄弟，你协议搞错了，是https，不是http

另外，建议发帖的时候，还是吧格式整理一下，这样看，好 ...

谢谢哈！

		自动登录	找回密码
密码			立即注册

[求助] 爬虫小白求助：爬取整个页面就出现问题，求各位大神...