|
import requests
from bs4 import BeautifulSoup
import re
#关于python百度百科词条的爬虫
res=requests.get("http://baike.baidu.com/link?url=nIQaJlHVJ82tgG9gDeopFKdER8Ch-P2m_-_gwNjhS_iW9orf3T98Z2rFTohpWpisN2z5GRHyq47StzdXW-8YUK")
res.encoding='utf-8'
soup=BeautifulSoup(res.text,"html.parser")
soup.find('a',href=re.compile(r"/item/\w+"))
#结果下结果错误,根本就没有这个连接
<a href="/item/史记·2016?fr=navbar" target="_blank">史记·2016</a>
#正确的结果应该为
<a target="_blank" href="/item/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A8%8B%E5%BA%8F%E8%AE%BE%E8%AE%A1%E8%AF%AD%E8%A8%80">计算机程序设计语言</a>
当我使用find_all('a',href=re.compile(r"/item/\w+"))查找其他的时候都是正确的,唯独这第一个有问题。求解释,谢谢。
|
|