找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 1906|回复: 10

[求助] 求助——爬虫输出是空列表

1

主题

1

帖子

1

积分

贫民

积分
1
不一样 发表于 2021-12-10 22:31:04 | 显示全部楼层 |阅读模式
from bs4 import BeautifulSoup
import requests , sys

target = 'http://zwfw.gd.gov.cn/portal/branch-hall?orgCode=006939801'

req = requests.get(target)
req.encoding = 'utf-8'
html = req.text
bf = BeautifulSoup(features = 'html.parser')
texts = bf.find_all('table', id ="bjjd-handle-info-list")
print(texts)


回复

使用道具 举报

0

主题

2

帖子

2

积分

贫民

积分
2
mw286283329 发表于 2021-12-19 15:43:58 | 显示全部楼层
bf = BeautifulSoup(features = 'html.parser')
bf = BeautifulSoup(html,features="html.parser")
回复 支持 1 反对 0

使用道具 举报

0

主题

36

帖子

36

积分

贫民

积分
36
Annadie 发表于 2021-12-20 11:27:37 | 显示全部楼层
print(bf)
看一下有你想要的信息吗?
回复 支持 反对

使用道具 举报

0

主题

2

帖子

2

积分

贫民

积分
2
ya-12345 发表于 2022-1-13 11:22:17 | 显示全部楼层
from bs4 import BeautifulSoup
import requests
import lxml

target = 'http://zwfw.gd.gov.cn/portal/branch-hall?orgCode=006939801'

req = requests.get(target)
req.encoding = 'utf-8'
html = req.text

bf = BeautifulSoup(html,'lxml')

texts = bf.find_all('table',id='bjjd-handle-info-list')

print(texts)
回复 支持 反对

使用道具 举报

0

主题

2

帖子

2

积分

贫民

积分
2
ya-12345 发表于 2022-1-13 11:53:31 | 显示全部楼层

from bs4 import BeautifulSoup
import requests
import lxml

target = 'http://zwfw.gd.gov.cn/portal/branch-hall?orgCode=006939801'

req = requests.get(target)
req.encoding = 'utf-8'
html = req.text
bf = BeautifulSoup(html,'lxml')
texts = bf.find_all('table',id='bjjd-handle-info-list')
print(texts)
回复 支持 反对

使用道具 举报

0

主题

5

帖子

5

积分

贫民

积分
5
as3030077 发表于 2022-3-7 13:10:31 | 显示全部楼层
因为你想获取的信息是ajxa加载的,要去xhr类型里面找
回复 支持 反对

使用道具 举报

0

主题

3

帖子

3

积分

贫民

积分
3
QQ
hhhh 发表于 2022-5-8 11:04:52 | 显示全部楼层
bf = BeautifulSoup(markup=html,features='html.parser')
回复 支持 反对

使用道具 举报

0

主题

8

帖子

8

积分

贫民

积分
8
风清扬888 发表于 2022-5-12 09:25:55 | 显示全部楼层
这个不是get方式获取数据,分析这个页面应该是post方式。用F12分析查询,测试了一下代码,获取数据
可以参考完善一下!

  1. import requests
  2. import pprint

  3. target = 'http://zwfw.gd.gov.cn/portal/xnjd/bjxx'
  4. login_data = {"orgCode":"006939801", "xzqhdm":"440000", "url":"/process-details"}
  5. req = requests.post(target, data=login_data)
  6. req.encoding = 'utf-8'
  7. html = req.json()
  8. pprint.pprint(html)
复制代码
回复 支持 反对

使用道具 举报

0

主题

8

帖子

8

积分

贫民

积分
8
风清扬888 发表于 2022-5-12 09:30:13 | 显示全部楼层
这个不是get方式获取数据,应该是post方式。通过F12查询分析,得出结果。
可以参考完善一下:

  1. import requests
  2. import pprint

  3. target = 'http://zwfw.gd.gov.cn/portal/xnjd/bjxx'
  4. login_data = {"orgCode":"006939801", "xzqhdm":"440000", "url":"/process-details"}
  5. req = requests.post(target, data=login_data)
  6. req.encoding = 'utf-8'
  7. html = req.json()
  8. pprint.pprint(html)
复制代码
回复 支持 反对

使用道具 举报

0

主题

8

帖子

8

积分

贫民

积分
8
风清扬888 发表于 2022-5-13 07:57:59 | 显示全部楼层
分析了一下页面,应该是Post方式,可以参考一下
  1. import requests
  2. import pprint

  3. target = 'http://zwfw.gd.gov.cn/portal/xnjd/bjxx'
  4. login_data = {"orgCode":"006939801", "xzqhdm":"440000", "url":"/process-details"}
  5. req = requests.post(target, data=login_data)
  6. req.encoding = 'utf-8'
  7. html = req.json()['data']['list']
  8. pprint.pprint(html)
复制代码
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表