抓取问卷星页面时似乎遇到了饭爬虫机制

C.Wang · 发表于 2016-10-29 22:21:50

抓取访问的页面http://www.sojump.com/jq/4738641.aspx，代码如下，结果如图...
#-*-coding=utf-8-*-
import requests,json,os,time,re
from bs4 import BeautifulSoup
def get_page():
url = 'http://www.sojump.com/jq/4738641.aspx'
headers = {
      "User-Agent": 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:41.0) Gecko/20100101 Firefox/41.0',
      'Host': 'www.sojump.com',
}
global s
s = requests.session()
req = s.get(url,headers=headers)
with open('mycookie', 'wb') as f:
      json.dump(s.cookies.get_dict(), f)
if os.path.exists('mycookie'):
      with open('mycookie') as f:
         cookie = json.load(f)
      s.cookies.update(cookie)
      newreq = s.get(url,headers=headers)

      with open('my.html', 'w') as f:
         f.write(req.content)
else:
      print'fail'
get_page()

blueelwang · 发表于 2016-10-31 15:38:08

这种反爬虫一般会针对UA， cookie， Uid， IP，这几种进行限制，你可以逐个去测试，找到解决办法

		自动登录	找回密码
密码			立即注册

[已回复] 抓取问卷星页面时似乎遇到了饭爬虫机制

相关帖子

活跃会员

热心会员

最佳导师

默默耕耘

突出贡献

优秀版主

荣誉管理

论坛元老