抓取内容

lmh_cn · 发表于 2018-3-23 08:39:39

我是新手，请高手帮忙。我想提取“[size=1em]'标题'[size=1em],[size=1em]'作者'[size=1em],[size=1em]'影片名'[size=1em],[size=1em]'影片详情链接'[size=1em],[size=1em]'推荐级'[size=1em],[size=1em]'回应数'[size=1em],[size=1em]'影评链接'[size=1em],[size=1em]'影评'[size=1em],[size=1em]'有用数'”部分，该怎么写？

网页源码内容如下：

'标题','作者','影片名','影片详情链接','推荐级','回应数','影评链接','影评','有用数'

</div>

麻烦!

lmh_cn · 发表于 2018-3-23 08:48:50

我写如下：
reg1 = re.compile('<div id="content">(.*?)</div>')
text = re.findall(reg1,texthtml)
但text内容为空。

lmh_cn · 发表于 2018-3-26 09:16:52

各位高手帮帮忙啊，嘿嘿

sss123 · 发表于 2018-3-27 15:23:20

//div[@ id="content"]//text() xpath

lmh_cn · 发表于 2018-3-28 11:15:35

不好意思，我是新手，正在学习Python。我按照你的语句：
text = soup.xpath('*[@id="content"]//text()')

出现出错信息： text = soup.xpath('*[@id="content"]//text()')
TypeError: 'NoneType' object is not callable

jing1208 · 发表于 2018-3-28 14:15:24

lmh_cn 发表于 2018-3-28 11:15
不好意思，我是新手，正在学习Python。我按照你的语句：
text = soup.xpath('*[@id="content"]//text()')

可能是没调用模块，而是用了模块的功能。建议用print检查

		自动登录	找回密码
密码			立即注册

[求助] 抓取内容