|
本帖最后由 pyoge 于 2018-1-10 10:10 编辑
网页解析使用bs4,提取处部分源码如下:
- <li class="subject_1">
- <a href="forum.php?mod=viewthread&tid=4636759&extra=page%3D1&mobile=2">
- <h1>
- 最近逛张大妈总能看见人们说“湿冷”难道真比北方冷吗?
- </h1>
- <p class="pl">
- <cite>flyiam912</cite><span class="pipe">-</span>2018-1-9 00:45
- <span class="replies">35</span>
- <span class="views">1804</span>
- </p>
- </a>
- </li>
复制代码
要单独提取源码中的时间 "2018-1-9 00:45",由于没有直接标签,我用bs4先导出<p>下的所有string,然后想用正则在单独提取出时间,但是正则一直无法匹配到:
- for h in soup.find_all('p',class_='pl'):
- hh=h.get_text(strip='True')
- #显示的结果:flyiam912-2018-1-9 00:45351804
- print re.match(r'\d{4}\-\d{1,2}\-\d{1,2}\s\d{1,2}:\d{1,2}',hh)
复制代码
求助下大家,谢谢~
|
|