找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 1565|回复: 1

[求助] scrapy 爬取li中文本信息

1

主题

1

帖子

1

积分

贫民

积分
1
erget 发表于 2019-5-24 09:36:11 | 显示全部楼层 |阅读模式
最新写一个爬虫例子练手,遇上一个信息爬取不全问题。
页面原代码如下:
<ul class="news_item">
<li class="news_title">
<a href="http://www.chinanews.com/sh/2019/05-10/8832844.shtml" target="_blank">自燃事故频发  共享充电宝还能野蛮生长?</a>
</li>
<li class="news_content">趋稳定。但是彼时的共享充电宝却似乎没多大进展,不仅多个平台多年已经没了融资的消息,而且相关的话题也是越来越少。
不过就在今年4月,来自广东<em>消</em><em>防</em>的一则疑似共享充电宝引发大火的消息则让共享充电宝再次成为舆论焦点,也</li>
<li class="news_space"></li>
</ul>


我想获取class=‘news_content‘的li下所有文本信息,使用
resp**e.css(".news_content::text").extract_first().strip() 获取到的信息为
“趋稳定。但是彼时的共享充电宝却似乎没多大进展,不仅多个平台多年已经没了融资的消息,而且相关的话题也是越来越少。
不过就在今年4月,来自广东”,

只能获取到“<em>消</em>”这个标签前的文字内容,但我想获取的是li下所有的文本信息。
“趋稳定。但是彼时的共享充电宝却似乎没多大进展,不仅多个平台多年已经没了融资的消息,而且相关的话题也是越来越少。
不过就在今年4月,来自广东<em>消</em><em>防</em>的一则疑似共享充电宝引发大火的消息则让共享充电宝再次成为舆论焦点,也”。

请问有什么方法可以解决这个问题么?
回复

使用道具 举报

6

主题

30

帖子

30

积分

贫民

积分
30
你的一_LtH95 发表于 2019-5-25 08:40:50 | 显示全部楼层
html="""
<ul class="news_item">
<li class="news_title">
<a href="http://www.chinanews.com/sh/2019/05-10/8832844.shtml" target="_blank">自燃事故频发  共享充电宝还能野蛮生长?</a>
</li>
<li class="news_content">趋稳定。但是彼时的共享充电宝却似乎没多大进展,不仅多个平台多年已经没了融资的消息,而且相关的话题也是越来越少。
不过就在今年4月,来自广东<em>消</em><em>防</em>的一则疑似共享充电宝引发大火的消息则让共享充电宝再次成为舆论焦点,也</li>
<li class="news_space"></li>
</ul>
"""
from scrapy import Selector
resp**e=Selector(text=html)
# 第一种方式
text=resp**e.css('.news_content::text').extract()
# 第二种方式
# text=resp**e.css('.news_content::text').getall()

print(text)
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表