找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 2721|回复: 1

求大神帮忙写一个“简单”的爬虫Py,观摩学习

1

主题

1

帖子

1

积分

贫民

积分
1
wang2lang 发表于 2022-1-10 12:05:05 | 显示全部楼层 |阅读模式
刚刚接触python
求大神帮忙写一个“简单”的爬虫Py,观摩学习
【事由】需要从https://zh.mindat.org/网站爬取网页文件。网页文件名称都是https://zh.mindat.org/min-××.html。我已经把需要的文件都记录在一个aaa.txt文件中了,aaa.txt内容为:
min-8646.html
min-18.html
min-1505.html
min-8645.html
min-4011.html
min-29085.html
min-859.html
min-4177.html
min-3337.html
min-1882.html
min-2538.html
min-3314.html
min-96.html
min-1755.html
……
大约一万二千条。html文件都不大,绝大多数几十至几百K,大的文件很少最大不超过5M。
我需要把这12000个.html网页下载保存下来。

【情况】写了个py,但是每次下载约200个文件后,下载的文件就只有2K了,内容只有一行,大约是说大量访问…;或者是0K,没有任何内容的html文件。

【求助】
求大侠帮忙写一个py,最好用到requests库,俺学习参考一下,不胜感谢。
谢谢啊谢谢


回复

使用道具 举报

0

主题

17

帖子

17

积分

贫民

积分
17
wsk 发表于 2022-1-19 10:38:28 | 显示全部楼层
私聊,可以共同研究
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表