求大神帮忙解决下这个问题

mint · 发表于 2018-12-25 11:06:58

本帖最后由 mint 于 2018-12-25 11:14 编辑

import requests
from requests.excepti** import RequestException as RE
import re
def get_one_page(url):
try:
resp**e = requests.get(url)
if resp**e.status_code == 200:
return resp**e.text
else:
return None
except RE:
return None
def parse_one_page(html):
partten = re.compile('<strong>.*?href="(.*?)".*？title>(.*?)</a>.*?<strong>.*?<a.*?<p>.*?href="(.*?)".*?="(.*?)"'
+'.*?</td>',re.S)
items = re.findall(partten,html)
for item in items:
yield {
"歌曲地址": 'https://www.xiami.com'+item[0], #加不加‘https：...’都报错
"歌曲名称": item[1],
"歌手": item[3],
"艺人介绍": 'https://www.xiami.com'+item[2]
}
def main():
url = 'https://www.xiami.com/chart'
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
if __name__ == '__main__':
main()

复制代码

求大神帮忙解决，我是新手，刚开始联系写爬虫，这是我练习正则表达式的一个程序，爬取了豆瓣读书的排行榜，正常运行，后来我看到虾米音乐有个音乐排行榜，就想把歌曲链接，歌手等信息爬下来，只改了url链接和正则表达式，就出现这个问题了，请大神帮忙解决下

return _compile(pattern, flags).findall(string)
TypeError: expected string or bytes-like object

PS:查了下，让 items = re.findall(partten,html) 改成 items = re.findall(partten,html.text) 还是报错

mchengd · 发表于 2018-12-27 11:26:40

本帖最后由 mchengd 于 2018-12-27 11:30 编辑

html = get_one_page(url)
html返回的是None，所以有问题，你需要修改get_one_page函数；或者判断下html是否None然后另做处理

smith6036 · 发表于 2018-12-27 16:42:19

应该是表头的原因，requests.get的时候你加个表头伪装一下就可以了

mint · 发表于 2018-12-31 15:15:39

你们都是大神，一句话就说对了，果真需要headers，可惜我提取的信息结果是乱码，查了下好像是json解析之类的问题，搞不懂，反正是练习正则表达式，换个酷我音乐把榜单信息抓下来了，等以后再研究其他问题

		自动登录	找回密码
密码			立即注册

[求助] 求大神帮忙解决下这个问题