找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 8138|回复: 7

[已解决] 如何爬取类似知乎的异步加载网站?

6

主题

13

帖子

13

积分

贫民

积分
13
converse 发表于 2016-11-2 12:10:00 | 显示全部楼层 |阅读模式
RT  
回复

使用道具 举报

6

主题

13

帖子

13

积分

贫民

积分
13
converse  楼主| 发表于 2016-11-2 18:48:56 | 显示全部楼层
都无人问津的么,我把问题再具体描述下吧
以knewone和豆瓣为例:
在每次下拉过程中,检查-network-XHR中都会出现“page= "的项,那么添加后缀”?page=4“即可获得该url

但是在知乎主界面审查network时,更新的却是deliver,batch等,获取不了url,这样的情况该如何解决呢?
回复 支持 反对

使用道具 举报

50

主题

1057

帖子

1108

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1108

活跃会员热心会员最佳导师默默耕耘突出贡献优秀版主荣誉管理论坛元老

blueelwang 发表于 2016-11-2 19:41:30 | 显示全部楼层
我看了豆瓣的网站,是有ajax请求的, 你可以直接请求ajax的地址获取内容。
你说的情况我没看到, 或者你直接给一个地址我看看
回复 支持 反对

使用道具 举报

6

主题

13

帖子

13

积分

贫民

积分
13
converse  楼主| 发表于 2016-11-3 10:43:39 | 显示全部楼层
blueelwang 发表于 2016-11-2 19:41
我看了豆瓣的网站,是有ajax请求的, 你可以直接请求ajax的地址获取内容。
你说的情况我没看到, 或者你直 ...

www.zhihu.com/
回复 支持 反对

使用道具 举报

6

主题

13

帖子

13

积分

贫民

积分
13
converse  楼主| 发表于 2016-11-3 10:45:54
支持 反对

50

主题

1057

帖子

1108

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1108

活跃会员热心会员最佳导师默默耕耘突出贡献优秀版主荣誉管理论坛元老

blueelwang 发表于 2016-11-3 10:49:08 | 显示全部楼层

batch只是一个统计工具, HomeFeedListV2 这个接口才是一个翻页ajax请求,
多往下拉一下就可以看到啦
回复 支持 反对

使用道具 举报

6

主题

13

帖子

13

积分

贫民

积分
13
converse  楼主| 发表于 2016-11-3 12:03:25 | 显示全部楼层
哦哦~  看到了,在data那个地方 谢谢哈~
回复 支持 反对

使用道具 举报

0

主题

3

帖子

3

积分

贫民

积分
3
lsyff 发表于 2016-11-3 14:05:36 | 显示全部楼层
如果你了解html和js的话可以直接查看后台加载的地址,然后直接提交抓取就可以了。豆瓣抓过,知乎大概看了一下。
回复 支持 反对

使用道具 举报

4

主题

77

帖子

77

积分

版主

Rank: 7Rank: 7Rank: 7

积分
77

活跃会员热心会员默默耕耘优秀版主论坛元老

北极 发表于 2016-11-3 17:57:28 | 显示全部楼层
思路就是:1.如果能够直接取到信息,那么就直接使用;
2.如果不能直接取到信息,那么就分析信息在哪个地方存着。

普及:Ajax异步加载的问题,一般都是会把信息存在json里。F12仔细分析是能够找到所需的数据的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表