找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

12
返回列表 发新帖
楼主: 欢乐的舒畅

[求助] 不能完全爬取所有网页

8

主题

22

帖子

22

积分

贫民

积分
22
欢乐的舒畅  楼主| 发表于 2018-12-13 22:08:43 | 显示全部楼层
smith6036 发表于 2018-12-7 10:45
你把content_list放到循环内就行了。你可以定义一个空list或者dataframe,然后把没个url的内容append到li ...

不好意思,我试初学者,可否明示。
回复 支持 反对

使用道具 举报

0

主题

8

帖子

8

积分

贫民

积分
8
smith6036 发表于 2018-12-17 11:37:17 | 显示全部楼层
欢乐的舒畅 发表于 2018-12-13 22:08
不好意思,我试初学者,可否明示。

你这样试一下   
def run(self):#实现主要逻辑
        content_list = []
        #1、根据url地址的规律,构造url_list
        url_list=self.get_url_list()
        #2、发送请求获取相应
        for url in url_list:
            html_str=self.parse_url(url)
            #3、提取数据
            content_list.append(self.get_content_list(html_str))
        #4、保存
        self.save_content_list(content_list)
回复 支持 反对

使用道具 举报

8

主题

22

帖子

22

积分

贫民

积分
22
欢乐的舒畅  楼主| 发表于 2018-12-21 17:40:08 | 显示全部楼层
smith6036 发表于 2018-12-17 11:37
你这样试一下   
def run(self):#实现主要逻辑
        content_list = []

谢谢您,我试一下。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表