|
刚刚接触python
求大神帮忙写一个“简单”的爬虫Py,观摩学习
【事由】需要从https://zh.mindat.org/网站爬取网页文件。网页文件名称都是https://zh.mindat.org/min-××.html。我已经把需要的文件都记录在一个aaa.txt文件中了,aaa.txt内容为:
min-8646.html
min-18.html
min-1505.html
min-8645.html
min-4011.html
min-29085.html
min-859.html
min-4177.html
min-3337.html
min-1882.html
min-2538.html
min-3314.html
min-96.html
min-1755.html
……
大约一万二千条。html文件都不大,绝大多数几十至几百K,大的文件很少最大不超过5M。
我需要把这12000个.html网页下载保存下来。
【情况】写了个py,但是每次下载约200个文件后,下载的文件就只有2K了,内容只有一行,大约是说大量访问…;或者是0K,没有任何内容的html文件。
【求助】
求大侠帮忙写一个py,最好用到requests库,俺学习参考一下,不胜感谢。
谢谢啊谢谢
|
|