Python论坛 - 国内最好的Python中文社区»论坛 › 技术交流 › python问答 - 求助悬赏区 Help! › python抓取网页正文去掉所有格式，只保留p span 文字和 ...

发新帖

查看: 6057|回复: 2

[求助] python抓取网页正文去掉所有格式，只保留p span 文字和超链接

1 主题	1 帖子	1 积分

积分: 1

发消息

lammeimei 发表于 2017-8-23 11:05:27 | 显示全部楼层 |阅读模式

1威望

求教：用python抓取网页后，如果去掉原有网页包括字体，字号等所有格式，只保留<p><span>标签、文字以及超链接

<p align="center" class="MsoNormal" style="text-align: center; margin: 0cm 28.25pt 0pt 0cm; line-height: 150%; mso-para-margin-right: 2.69gd"><b><span style="font-size: 22pt; font-family: 宋体; line-height: 150%; mso-ascii-theme-font: major-fareast; mso-fareast-theme-font: major-fareast; mso-hansi-theme-font: major-fareast">学习Python，求教高手</span></b></p>

变成：

<p align="center"><span>学习Python，求教高手</span></p>

回复

使用道具举报

0 主题	27 帖子	27 积分

积分: 27

发消息

艾幻翔 发表于 2017-8-23 16:45:10 | 显示全部楼层

本帖最后由艾幻翔于 2017-8-25 13:57 编辑

献丑~

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Created by lightwave on 2017/8/23
import re
ignore_name = ('p', 'span', 'a')
ignore_param = ('align', 'href')
reg_node = r"<(\w+)[\s\S*]*?>|</(\w+)>|<(\w+)(\s\S*)*?/>"
reg_param = r'\s+(\w+)(=("?)[\s\S]*?\3)?'
def sub_node(match):
if match.group(1) and match.group(1) in ignore_name:
match = match.group()
if re.search(reg_param, match):
return re.sub(reg_param, sub_param, match)
else:
return match
elif match.group(2) and match.group(2) in ignore_name:
return match.group()
elif match.group(3) and match.group(3) in ignore_name:
return match.group()
return ''
def sub_param(match):
if match.group(1) in ignore_param:
return match.group()
return ''
if __name__ == '__main__':
data = r"""<p align="center" class="MsoNormal" style="text-align: center; margin: 0cm 28.25pt 0pt 0cm; line-height: 150%; mso-para-margin-right: 2.69gd"><b><span style="font-size: 22pt; font-family: 宋体; line-height: 150%; mso-ascii-theme-font: major-fareast; mso-fareast-theme-font: major-fareast; mso-hansi-theme-font: major-fareast">学习Python，求教高手</span></b></p>"""
data = re.sub(reg_node, sub_node, data)
print(data)

复制代码

回复

使用道具举报

0 主题	5 帖子	5 积分

积分: 5

发消息

liuvz11 发表于 2017-8-24 10:19:27 | 显示全部楼层

# -*- coding: utf-8 -*-
from lxml import etree
data = u"""
<p align="center" class="MsoNormal" style="text-align: center; margin: 0cm 28.25pt 0pt 0cm; line-height: 150%; mso-para-margin-right: 2.69gd"><b><span style="font-size: 22pt; font-family: 宋体; line-height: 150%; mso-ascii-theme-font: major-fareast; mso-fareast-theme-font: major-fareast; mso-hansi-theme-font: major-fareast">学习Python，求教高手</span></b></p>
"""
et = etree.HTML(data)
p_align = et.xpath("//p/@align")[0]
span_text = et.xpath("//span/text()")[0]
print u"<p align={}><span>{}</span></p>".format(p_align, span_text)

复制代码

回复

使用道具举报

发新帖

快速回复 返回顶部 返回列表