找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 2415|回复: 2

[求助] 关于抓取表格的问题求助

1

主题

1

帖子

1

积分

贫民

积分
1
yangtongle 发表于 2018-10-30 14:46:23 | 显示全部楼层 |阅读模式
想用bs4抓取网页上的表格抓出来确是图里的样子好多都是空值
[img]file:///C:\Users\yangtongle\Documents\Tencent Files\1002495039\Image\C2C\%4XP8A4W[PDXCEL6U5$]%~U.png[/img]目标网址是http://bj.zhue.com.cn/list.php?s ... &lx=&page=2


以下是源码哪个大神能给指点指点

import time
import re
from urllib.request import urlretrieve
from bs4 import BeautifulSoup
import requests
url = 'http://bj.zhue.com.cn/list.php?sort=2&s_id=0&c_id=0&cou_id=0&city_id=0&mid=&lx=&page=2'
headers_data = {
    'User-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
def get_html(url):
    try:
        response = requests.get(url=url,headers=headers_data)
        response.encoding = 'gbk'
        #print(response.text)
        return response.text
    except Exception as e:
        print(e)
html=get_html(url)
new_html=(html.replace('<a>','')).replace('</a>','')
def down_show(ulist,html):
    try:
        soup = BeautifulSoup(html,'lxml')
        a = soup.find('table',class_='t_f')
        trs = a.find_all('tr',attrs={'bgcolor':'#ffffff'})
        for tr in trs:
            ui = []
            for td in tr:
                ui.append(td.string)
            ulist.append(ui)
    except Exception as e:
        print(e)
urll = []
down_show(urll,html)

for d in range(1,31):
    print(urll[d])
    print('\n')



%4XP8A4W[PDXCEL6U5$]%~U.png
回复

使用道具 举报

0

主题

956

帖子

956

积分

圣骑士

积分
956
sheeboard 发表于 2018-10-31 09:40:25 | 显示全部楼层
本帖最后由 sheeboard 于 2018-10-31 10:24 编辑

抓的td是链接,要get_text。
Screenshot from 2018-10-31 09-38-57.png
回复 支持 反对

使用道具 举报

0

主题

2

帖子

2

积分

贫民

积分
2
ldcaei 发表于 2018-11-1 11:07:26 | 显示全部楼层
ui.append(td.string)
换成append(td.get_text(strip=True))试试。
说明:未用你的代码进行过测试
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表