找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 4559|回复: 1

[求助] python爬取某p2p公司某一个页面

0

主题

0

帖子

0

积分

贫民

积分
0
北凉不悲凉 发表于 2018-1-18 16:47:55 | 显示全部楼层 |阅读模式
5威望
本帖最后由 北凉不悲凉 于 2018-1-18 16:49 编辑

url = 'https://www.hoomxb.com/plan/444' image.png
需要爬取这个页面的加入记录,这个记录是动态加载的,NETWORK监控了其加载地址,但在构造post请求时候始终请求不成功,返回403,我写的代码如下
headers = {
     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
     'Host':'www.hoomxb.com',
     'Referer':'https://www.hoomxb.com/plan/449',
     'Cookie': 'koa:sess=0uoCTCCnwWNokOwXPMUspYoD; koa:sess.sig=_QXuhUkPls_gQvQnsl5Ima0lYjo; Hm_lvt_669d03c874797a405408c4aafdff0c46=1516153119,1516245778,1516256946; Hm_lpvt_669d03c874797a405408c4aafdff0c46=1516256982'
}params = {'id':'444'}
html_json = requests.post('https://www.hoomxb.com/api/plan/joinRecord',data=params,headers = headers)
print(html_json.status_code)#403
求大神帮我写一下这个代码,要能获取加入记录的json数据,我刚入手爬虫不久,脑子不灵光,万分感谢啊






回复

使用道具 举报

0

主题

1

帖子

1

积分

贫民

积分
1
ctob 发表于 2018-1-18 21:02:13 | 显示全部楼层
方法一:这个返回的状态码是403,因为post提交这个接口,他们网站需要有一个加密的X-CSRF-Token验证,并且是动态生成的,如果你的javascript比较好的会,去看下怎么用js生成的, 然后用python照着这个js算法写一个
方法二:用自动化测试工具Selenium模拟浏览器也比较方便
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表