找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 2183|回复: 0

[已解决] bs4提取结果中使用正则问题

0

主题

2

帖子

2

积分

贫民

积分
2
pyoge 发表于 2018-1-9 12:24:09 | 显示全部楼层 |阅读模式
本帖最后由 pyoge 于 2018-1-10 10:10 编辑

网页解析使用bs4,提取处部分源码如下:

                                       
  1.   <li class="subject_1">

  2.                     <a href="forum.php?mod=viewthread&tid=4636759&extra=page%3D1&mobile=2">

  3.                     <h1>

  4.                     最近逛张大妈总能看见人们说“湿冷”难道真比北方冷吗?                    

  5.                                         </h1>

  6.                     <p class="pl">                    

  7.                     <cite>flyiam912</cite><span class="pipe">-</span>2018-1-9 00:45  

  8.                     <span class="replies">35</span>                                    

  9.                     <span class="views">1804</span>

  10.                     </p>

  11. </a>

  12. </li>
复制代码



要单独提取源码中的时间 "2018-1-9 00:45",由于没有直接标签,我用bs4先导出<p>下的所有string,然后想用正则在单独提取出时间,但是正则一直无法匹配到:

  1. for h in soup.find_all('p',class_='pl'):
  2.         hh=h.get_text(strip='True')

  3.        #显示的结果:flyiam912-2018-1-9 00:45351804
  4.         print re.match(r'\d{4}\-\d{1,2}\-\d{1,2}\s\d{1,2}:\d{1,2}',hh)
复制代码


求助下大家,谢谢~

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表