python爬取某p2p公司某一个页面

北凉不悲凉 · 发表于 2018-1-18 16:47:55

本帖最后由北凉不悲凉于 2018-1-18 16:49 编辑

url = 'https://www.hoomxb.com/plan/444'

需要爬取这个页面的加入记录,这个记录是动态加载的,NETWORK监控了其加载地址,但在构造post请求时候始终请求不成功,返回403,我写的代码如下
headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
   'Host':'www.hoomxb.com',
   'Referer':'https://www.hoomxb.com/plan/449',
   'Cookie': 'koa:sess=0uoCTCCnwWNokOwXPMUspYoD; koa:sess.sig=_QXuhUkPls_gQvQnsl5Ima0lYjo; Hm_lvt_669d03c874797a405408c4aafdff0c46=1516153119,1516245778,1516256946; Hm_lpvt_669d03c874797a405408c4aafdff0c46=1516256982'
}params = {'id':'444'}
html_json = requests.post('https://www.hoomxb.com/api/plan/joinRecord',data=params,headers = headers)
print(html_json.status_code)#403
求大神帮我写一下这个代码,要能获取加入记录的json数据,我刚入手爬虫不久,脑子不灵光,万分感谢啊

ctob · 发表于 2018-1-18 21:02:13

方法一：这个返回的状态码是403，因为post提交这个接口，他们网站需要有一个加密的X-CSRF-Token验证，并且是动态生成的，如果你的javascript比较好的会，去看下怎么用js生成的，然后用python照着这个js算法写一个
方法二：用自动化测试工具Selenium模拟浏览器也比较方便

		自动登录	找回密码
密码			立即注册

[求助] python爬取某p2p公司某一个页面