python re.findall()正则表达式报错

purple11261126 · 发表于 2016-10-30 15:23:13

麻烦大伙啦，用re.findall()时，正则表达式报语法错误，正则本身没有问题，在正则表达式软件中已经测试过了，可是python运行就就报语法错误，实在不知道是该怎么解决。
下面是那段代码：
f = re.findall('<dd class="col2-7 word">[\s]+<span><a href="/seo/words/(?<grp0>[^"]+)"[\S\s]+?查百度[\S\s]+?<dd class="col2-2 center">[^\d]+(?<grp1>[^\D]+)[\s]+</dd>\n<dd class="col2-2 center">' , html)

还有报错信息：
Traceback (most recent call last):
  File "E:\workspace_HBuilder\Python_Project\Python_Leaning\src\weixin_datadw\test.py", line 20, in <module>
get_index_5118("seo")
  File "E:\workspace_HBuilder\Python_Project\Python_Leaning\src\weixin_datadw\test.py", line 14, in get_index_5118
f = re.findall(str('<dd class="col2-7 word">[\s]+<span><a href="/seo/words/(?<grp0>[^"]+)"[\S\s]+?查百度[\S\s]+?<dd class="col2-2 center">[^\d]+(?<grp1>[^\D]+)[\s]+</dd>\n<dd class="col2-2 center">'), html)
  File "C:\Python27\lib\re.py", line 181, in findall
return _compile(pattern, flags).findall(string)
  File "C:\Python27\lib\re.py", line 251, in _compile
raise error, v # invalid expression
sre_constants.error: syntax error

午夜垃圾桶 · 发表于 2016-10-31 23:01:02

urlopen之后只是一个urllib.urlopen对象，所以要html.read()一下才是url代码

whydo1 · 发表于 2016-10-30 19:25:41

把你需要匹配的内容贴出来, 大家可以帮你写正则

purple11261126 · 发表于 2016-10-31 09:50:47

whydo1 发表于 2016-10-30 19:25
把你需要匹配的内容贴出来, 大家可以帮你写正则

def get_index_5118(keyword):
url_5118 = "http://www.5118.com/seo/words/" + keyword
html = urllib.urlopen(url_5118)
f = re.findall('<dd class="col2-7 word">[\s]+<span><a href="/seo/words/(?<grp0>[^"]+)"[\S\s]+?查百度[\S\s]+?<dd class="col2-2 center">[^\d]+(?<grp1>[^\D]+)[\s]+</dd>\n<dd class="col2-2 center">', html)
#<dd class="col2-7 word">[\s]+<span><a href="/seo/words/(?<grp0>[^"]+)"[\S\s]+?查百度[\S\s]+?<dd class="col2-2 center">[^\d]+(?<grp1>[^\D]+)[\s]+</dd>\n<dd class="col2-2 center">
for x in f:
print x
麻烦，版主，整个代码都在上面，主要是想问问这个报错怎么解决，因为正则是用程序生成的，测试过没有问题可以匹配内容，只是放到findall里就显示语法错误，所以想知道为啥正则没有问题，可是findall却报语法错误，麻烦版主啦