|
最新写一个爬虫例子练手,遇上一个信息爬取不全问题。
页面原代码如下:
<ul class="news_item">
<li class="news_title">
<a href="http://www.chinanews.com/sh/2019/05-10/8832844.shtml" target="_blank">自燃事故频发 共享充电宝还能野蛮生长?</a>
</li>
<li class="news_content">趋稳定。但是彼时的共享充电宝却似乎没多大进展,不仅多个平台多年已经没了融资的消息,而且相关的话题也是越来越少。
不过就在今年4月,来自广东<em>消</em><em>防</em>的一则疑似共享充电宝引发大火的消息则让共享充电宝再次成为舆论焦点,也</li>
<li class="news_space"></li>
</ul>
我想获取class=‘news_content‘的li下所有文本信息,使用
resp**e.css(".news_content::text").extract_first().strip() 获取到的信息为
“趋稳定。但是彼时的共享充电宝却似乎没多大进展,不仅多个平台多年已经没了融资的消息,而且相关的话题也是越来越少。
不过就在今年4月,来自广东”,
只能获取到“<em>消</em>”这个标签前的文字内容,但我想获取的是li下所有的文本信息。
“趋稳定。但是彼时的共享充电宝却似乎没多大进展,不仅多个平台多年已经没了融资的消息,而且相关的话题也是越来越少。
不过就在今年4月,来自广东<em>消</em><em>防</em>的一则疑似共享充电宝引发大火的消息则让共享充电宝再次成为舆论焦点,也”。
请问有什么方法可以解决这个问题么?
|
|