动态网页爬虫请求失败问题

wulabaha · 发表于 2019-6-17 11:02:11

import pandas as pd
import requests
from bs4 import BeautifulSoup
import re
#网址
url = 'http://www.cde.org.cn/transparent.do?method=list'
#url = 'http://202.96.26.100/transparent.do?method=list'
header = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Cache-Control': 'max-age=0',
'Connection': 'keep-alive',
'Content-Length': '192',
'Content-Type': 'application/x-www-form-urlencoded',
'Cookie': 'FSSBBIl1UgzbN7N80S=omPOBvbba9FZNsFeYw0a4yVDBdorZUykmsDAqyYfQFGBSv.PNuQPIskzxgXbGbfe; JSESSIONID=0001up3M1qO40UoVBm8EW2HcCam:-60G3AC; FSSBBIl1UgzbN7N80T=33aaT._Id_G.RbvNZtjpE0Jdd_l8I_QkaU7F6VUzABiRJStcCSOJJIBBMED9lDwZnWZa47dvfQ_w1.r0BZ8celUvh4T4aKxOeEesnU0Qhrks16pH7Vnz50_hBU70Si_2GfDe_yX7iW3I50Oxlv50PtdTScNDzzsjh1Tf.GoYHYm.QAAabNb9LkNjAZZK0dRGxhzlvczShrIlc_Gch1SdMwRlcDziXYBqYfmr.uqw8J2WFsHp0MjJJOOyU5dolzvRowjkQXASl.aloWWB2UgBB.rVhCUeyMKK5ZVObyna..8U4vm5.OUojoPA069_u0FxVz7T8UQcPVDcN9eBjz2mM3ueaztA9V1cy6j63HEQEPkCMJa',
'Host': '202.96.26.100',
'Origin': 'http://202.96.26.100',
'Referer': 'http://202.96.26.100/transparent.do?method=list',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36'}
dat = {'checktype': '1',
'pagetotal': '303',
'statenow': '0',
'year': '2019',
'drugtype': '',
'applytype': 'xy',
'acceptid': '',
'drugname': '',
'company': '',
'currentPageNumber': '3',
'pageMaxNumber': '20',
'totalPageCount': '16',
'pageroffset': '40',
'pageMaxNum': '20',
'pagenum': '3'}
html = requests.post(url,data = dat,headers = header)
html.status_code

复制代码

html.status_code返回202，请求失败，怎么才能请求成功，爬到数据？？？？

你的一_LtH95 · 发表于 2019-6-23 18:14:34

import requests

headers = {
'Content-Type': 'application/x-www-form-urlencoded',
'Cookie': 'FSSBBIl1UgzbN7N80S=omPOBvbba9FZNsFeYw0a4yVDBdorZUykmsDAqyYfQFGBSv.PNuQPIskzxgXbGbfe; JSESSIONID=0001up3M1qO40UoVBm8EW2HcCam:-60G3AC; FSSBBIl1UgzbN7N80T=33aaT._Id_G.RbvNZtjpE0Jdd_l8I_QkaU7F6VUzABiRJStcCSOJJIBBMED9lDwZnWZa47dvfQ_w1.r0BZ8celUvh4T4aKxOeEesnU0Qhrks16pH7Vnz50_hBU70Si_2GfDe_yX7iW3I50Oxlv50PtdTScNDzzsjh1Tf.GoYHYm.QAAabNb9LkNjAZZK0dRGxhzlvczShrIlc_Gch1SdMwRlcDziXYBqYfmr.uqw8J2WFsHp0MjJJOOyU5dolzvRowjkQXASl.aloWWB2UgBB.rVhCUeyMKK5ZVObyna..8U4vm5.OUojoPA069_u0FxVz7T8UQcPVDcN9eBjz2mM3ueaztA9V1cy6j63HEQEPkCMJa',
'Host': 'www.cde.org.cn',
'Origin': 'http://www.cde.org.cn',
'Referer': 'http://www.cde.org.cn/transparent.do?method=list',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36',
}
dat = {'checktype': '1',
   'pagetotal': '303',
   'statenow': '0',
   'year': '2019',
   'drugtype': '',
   'applytype': 'xy',
   'acceptid': '',
   'drugname': '',
   'company': '',
   'currentPageNumber': '3',
   'pageMaxNumber': '20',
   'totalPageCount': '16',
   'pageroffset': '40',
   'pageMaxNum': '20',
   'pagenum': '3'
   }
url = ' http://www.cde.org.cn/transparent.do?method=list'
resp**e = requests.post(url, headers=headers, data=dat)
print(resp**e.text)

你的一_LtH95 · 发表于 2019-6-23 18:18:53

<td align="center" bgcolor="#ffffff" class="newsindex"> CXHL1900176</td>
                              <td align="center" bgcolor="#ffffff" class="newsindex"> TERN-201胶囊</td>
                              <td align="center" bgcolor="#ffffff" class="newsindex"> 化药 </td>
                              <td align="center" bgcolor="#ffffff" class="newsindex"> 新药 </td>
                              <td align="center" bgcolor="#ffffff" class="newsindex"> 1 </td>
                              <td align="center" bgcolor="#ffffff" class="newsindex">上海拓臻生物科技有限公司</td>

要是不行，可以弄一个可以截屏的，数据一下就拿到手了，不需看源代码

cx7154 · 发表于 2019-6-23 19:12:23

刚测试了可以抓取数据

		自动登录	找回密码
密码			立即注册

[求助] 动态网页爬虫请求失败问题