找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 3359|回复: 1

[求助] 爬虫问题求助

1

主题

1

帖子

1

积分

贫民

积分
1
裂缝阳关 发表于 2017-5-20 09:28:03 | 显示全部楼层 |阅读模式

import requests
from bs4 import BeautifulSoup
import re
#关于python百度百科词条的爬虫
res=requests.get("http://baike.baidu.com/link?url=nIQaJlHVJ82tgG9gDeopFKdER8Ch-P2m_-_gwNjhS_iW9orf3T98Z2rFTohpWpisN2z5GRHyq47StzdXW-8YUK")
res.encoding='utf-8'
soup=BeautifulSoup(res.text,"html.parser")
soup.find('a',href=re.compile(r"/item/\w+"))  

#结果下结果错误,根本就没有这个连接










<a href="/item/史记·2016?fr=navbar" target="_blank">史记·2016</a>

#正确的结果应该为
<a target="_blank" href="/item/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A8%8B%E5%BA%8F%E8%AE%BE%E8%AE%A1%E8%AF%AD%E8%A8%80">计算机程序设计语言</a>

当我使用find_all('a',href=re.compile(r"/item/\w+"))查找其他的时候都是正确的,唯独这第一个有问题。求解释,谢谢。


回复

使用道具 举报

0

主题

3

帖子

3

积分

贫民

积分
3
码码要洗手 发表于 2017-5-22 11:58:52 | 显示全部楼层
你的问题描述得不是很清楚,或者根本就看不懂,看问题的时间花的太长了,建议提高下问问题的技巧。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表