找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 4267|回复: 1

[已回复] 抓取问卷星页面时似乎遇到了饭爬虫机制

0

主题

0

帖子

0

积分

贫民

积分
0
C.Wang 发表于 2016-10-29 22:21:50 | 显示全部楼层 |阅读模式
抓取访问的页面http://www.sojump.com/jq/4738641.aspx,代码如下,结果如图...
#-*-coding=utf-8-*-
import requests,json,os,time,re
from bs4 import BeautifulSoup
def get_page():
    url = 'http://www.sojump.com/jq/4738641.aspx'
    headers = {
        "User-Agent": 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:41.0) Gecko/20100101 Firefox/41.0',
        'Host': 'www.sojump.com',
    }
    global s
    s = requests.session()
    req = s.get(url,headers=headers)
    with open('mycookie', 'wb') as f:
        json.dump(s.cookies.get_dict(), f)
    if os.path.exists('mycookie'):
        with open('mycookie') as f:
            cookie = json.load(f)
        s.cookies.update(cookie)
        newreq = s.get(url,headers=headers)
   
        with open('my.html', 'w') as f:
            f.write(req.content)
    else:
        print'fail'
get_page()
捕获.PNG
回复

使用道具 举报

50

主题

1057

帖子

1108

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1108

活跃会员热心会员最佳导师默默耕耘突出贡献优秀版主荣誉管理论坛元老

blueelwang 发表于 2016-10-31 15:38:08 | 显示全部楼层
这种反爬虫一般会针对UA, cookie, Uid, IP,这几种进行限制, 你可以逐个去测试, 找到解决办法
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表