找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 4629|回复: 3

[求助] 动态网页爬虫请求失败问题

2

主题

3

帖子

3

积分

贫民

积分
3
wulabaha 发表于 2019-6-17 11:02:11 | 显示全部楼层 |阅读模式
1威望
  1. import pandas as pd
  2. import requests
  3. from bs4 import BeautifulSoup
  4. import re


  5. #网址
  6. url = 'http://www.cde.org.cn/transparent.do?method=list'

  7. #url = 'http://202.96.26.100/transparent.do?method=list'

  8. header = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
  9. 'Accept-Encoding': 'gzip, deflate',
  10. 'Accept-Language': 'zh-CN,zh;q=0.9',
  11. 'Cache-Control': 'max-age=0',
  12. 'Connection': 'keep-alive',
  13. 'Content-Length': '192',
  14. 'Content-Type': 'application/x-www-form-urlencoded',
  15. 'Cookie': 'FSSBBIl1UgzbN7N80S=omPOBvbba9FZNsFeYw0a4yVDBdorZUykmsDAqyYfQFGBSv.PNuQPIskzxgXbGbfe; JSESSIONID=0001up3M1qO40UoVBm8EW2HcCam:-60G3AC; FSSBBIl1UgzbN7N80T=33aaT._Id_G.RbvNZtjpE0Jdd_l8I_QkaU7F6VUzABiRJStcCSOJJIBBMED9lDwZnWZa47dvfQ_w1.r0BZ8celUvh4T4aKxOeEesnU0Qhrks16pH7Vnz50_hBU70Si_2GfDe_yX7iW3I50Oxlv50PtdTScNDzzsjh1Tf.GoYHYm.QAAabNb9LkNjAZZK0dRGxhzlvczShrIlc_Gch1SdMwRlcDziXYBqYfmr.uqw8J2WFsHp0MjJJOOyU5dolzvRowjkQXASl.aloWWB2UgBB.rVhCUeyMKK5ZVObyna..8U4vm5.OUojoPA069_u0FxVz7T8UQcPVDcN9eBjz2mM3ueaztA9V1cy6j63HEQEPkCMJa',
  16. 'Host': '202.96.26.100',
  17. 'Origin': 'http://202.96.26.100',
  18. 'Referer': 'http://202.96.26.100/transparent.do?method=list',
  19. 'Upgrade-Insecure-Requests': '1',
  20. 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36'}


  21. dat = {'checktype': '1',
  22. 'pagetotal': '303',
  23. 'statenow': '0',
  24. 'year': '2019',
  25. 'drugtype': '',
  26. 'applytype': 'xy',
  27. 'acceptid': '',
  28. 'drugname': '',
  29. 'company': '',
  30. 'currentPageNumber': '3',
  31. 'pageMaxNumber': '20',
  32. 'totalPageCount': '16',
  33. 'pageroffset': '40',
  34. 'pageMaxNum': '20',
  35. 'pagenum': '3'}


  36. html = requests.post(url,data = dat,headers = header)

  37. html.status_code
复制代码
html.status_code返回202,请求失败,怎么才能请求成功,爬到数据????

回复

使用道具 举报

6

主题

30

帖子

30

积分

贫民

积分
30
你的一_LtH95 发表于 2019-6-23 18:14:34 | 显示全部楼层
import requests

headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Cookie': 'FSSBBIl1UgzbN7N80S=omPOBvbba9FZNsFeYw0a4yVDBdorZUykmsDAqyYfQFGBSv.PNuQPIskzxgXbGbfe; JSESSIONID=0001up3M1qO40UoVBm8EW2HcCam:-60G3AC; FSSBBIl1UgzbN7N80T=33aaT._Id_G.RbvNZtjpE0Jdd_l8I_QkaU7F6VUzABiRJStcCSOJJIBBMED9lDwZnWZa47dvfQ_w1.r0BZ8celUvh4T4aKxOeEesnU0Qhrks16pH7Vnz50_hBU70Si_2GfDe_yX7iW3I50Oxlv50PtdTScNDzzsjh1Tf.GoYHYm.QAAabNb9LkNjAZZK0dRGxhzlvczShrIlc_Gch1SdMwRlcDziXYBqYfmr.uqw8J2WFsHp0MjJJOOyU5dolzvRowjkQXASl.aloWWB2UgBB.rVhCUeyMKK5ZVObyna..8U4vm5.OUojoPA069_u0FxVz7T8UQcPVDcN9eBjz2mM3ueaztA9V1cy6j63HEQEPkCMJa',
    'Host': 'www.cde.org.cn',
    'Origin': 'http://www.cde.org.cn',
    'Referer': 'http://www.cde.org.cn/transparent.do?method=list',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36',
}
dat = {'checktype': '1',
       'pagetotal': '303',
       'statenow': '0',
       'year': '2019',
       'drugtype': '',
       'applytype': 'xy',
       'acceptid': '',
       'drugname': '',
       'company': '',
       'currentPageNumber': '3',
       'pageMaxNumber': '20',
       'totalPageCount': '16',
       'pageroffset': '40',
       'pageMaxNum': '20',
       'pagenum': '3'
       }
url = ' http://www.cde.org.cn/transparent.do?method=list'
resp**e = requests.post(url, headers=headers, data=dat)
print(resp**e.text)
回复

使用道具 举报

6

主题

30

帖子

30

积分

贫民

积分
30
你的一_LtH95 发表于 2019-6-23 18:18:53 | 显示全部楼层
<td align="center" bgcolor="#ffffff" class="newsindex"> CXHL1900176</td>
                                  <td align="center" bgcolor="#ffffff" class="newsindex"> TERN-201胶囊</td>
                                  <td align="center" bgcolor="#ffffff" class="newsindex"> 化药 </td>
                                  <td align="center" bgcolor="#ffffff" class="newsindex"> 新药 </td>
                                  <td align="center" bgcolor="#ffffff" class="newsindex"> 1 </td>
                                  <td align="center" bgcolor="#ffffff" class="newsindex">上海拓臻生物科技有限公司</td>


要是不行,可以弄一个可以截屏的,数据一下就拿到手了,不需看源代码
回复

使用道具 举报

0

主题

1

帖子

1

积分

贫民

积分
1
cx7154 发表于 2019-6-23 19:12:23 | 显示全部楼层
刚测试了 可以抓取数据
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表