找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 4685|回复: 4

[代码与实例] python爬取知乎盐选文章内容

2

主题

2

帖子

2

积分

贫民

积分
2
datehoer 发表于 2020-11-30 15:08:17 | 显示全部楼层 |阅读模式
其实这个之前我有在论坛问过的,但是没人回复,不过所幸我自己解决了。
看过前面文章的朋友,肯定都知道我最近在看python这一块的内容,然后既然看了python那么就不得不看一下python最火爆的一个功能,爬虫。
然后呢,最近又正好看了几篇知乎盐选的文章,所以就想试试手,把文章内容爬取下来,但是一开始还好说。
直接用requests_html就能爬下来,但是后免得内容就需要开会员才能爬了,但是主要就是我开了会员呀。所以就找了一下关于python爬虫模拟登录的代码,发现大部分的都是比较麻烦的,而我又比较懒,并且昨天还发烧了,所以就找了一个简单的方法,使用别人的开源库。DecryptLogin这个库是一个开源的模拟登陆的库,目前支持许多的网站模拟登陆了,所以就决定使用这个进行测试。
from DecryptLogin import login
首先呢先把库导入进去,然后通过内置的函数进行模拟登陆。
lg = login.Login()
_, loginstauts = lg.zhihu(username='', password='', mode='pc')
然后模拟登录,发现可行,于是就决定使用这个库来进行模拟登陆了。
但是没想到我当时以为离成功就差一步的时候,现实给我来了一记头槌,使用xpath一直获取不到内容,然后库给的示例发现并不是很能看懂,顶多看个意思,然后自己尝试发现并不可行,不是这个错误就是那个错误。
之后呢,本来以为要在这里卡很久的我,突然在下午的时候想到了去看这个库的代码,看看里面都调用了什么内容。
import requests
没想到调用了requests库,这下好办了,直接使用requests库的方法就行了。headers = {    'user-agent': "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36"}这个是设置一下useragent,之后只需要请求一下数据即可
url2 = "https://www.zhihu.com/market/paid_column/1178733193687175168/section/1178742849583083520"
r = loginstauts.get(url2, headers=headers)
wenzi = r.text
之后我们直接.text就能获取html页面的所有内容了,不过很明显,带着各类html标签的内容不是我们想要的,我一开始都是用的requests_html,本来还以为requests有xpath功能呢,没想到并没有,一开始看都推荐的是
from lxml import etree这个,但是我比较想找一个简单的,所以百度一查发现了
from bs4 import BeautifulSoup这个,很nice。soup = BeautifulSoup(wenzi, 'lxml', from_encoding='utf8')texts = soup.find_all('p')for text in texts:    print(text.get_text())这样我们就能读取所有的内容了,不过其实当时还遇到了一个问题,就是使用find_all这个方法之后使用.string属性的话,获取到的内容为none百度查过大部分人说是因为有br标签,但是自己也看过并没有,所以并没有找到什么原因,后来在csdn的一篇文章里的评论看到了一个大佬说的.get_text()方法,换成这个没想到就出结果了,难以想象。

其实看代码只是几行,但是确实是心血,哈哈。
毕竟中途也遇到了许多的问题,不过幸好大部分都解决了,没解决的也都有替换的方法。不过说真的,想要学习编程还是需要有一个好的环境,毕竟在学习的路上会遇到很多的问题,如果百度没查到,那么就需要去查论坛,去提问,去询问了。
进阶版:python爬取知乎盐选全部内容https://zjzdmc.top/rcxx/64.html
回复

使用道具 举报

0

主题

1

帖子

1

积分

贫民

积分
1
huige 发表于 2020-12-1 14:35:24 | 显示全部楼层
代码贴出来看下
回复 支持 反对

使用道具 举报

1

主题

5

帖子

5

积分

贫民

积分
5
sekmart 发表于 2021-4-15 09:05:35 | 显示全部楼层
模拟登陆可以用selenium
回复 支持 反对

使用道具 举报

5

主题

15

帖子

15

积分

贫民

积分
15
wx_Z9LTRnIn 发表于 2021-6-5 19:08:44 | 显示全部楼层
大佬,可不可以多发几个你的成功案例
回复 支持 反对

使用道具 举报

0

主题

1

帖子

1

积分

贫民

积分
1
Laser_Engineer 发表于 2021-8-8 00:06:07 | 显示全部楼层
大神牛掰哦
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表