|
本帖最后由 duocool 于 2016-12-30 17:12 编辑
python刚刚在学,爬虫也是刚刚在学,最好的学习就是边学边练。前两天看到论坛里有哥们弄了个淘女郎爬虫,写得很复杂,弄了个类啥的,不过好像下载图片遇到点麻烦,今天却再也找不到这个贴子了。
献丑把自己练习的脚本贴出来,发现只一句匹配的正则表达式比较有用。
python 3.5环境:
结果发现有个小问题,有些明明很小的图,大小却超过了5M,打开也是正常的
截图
- from urllib.request import urlopen
- from urllib.request import urlretrieve
- from bs4 import BeautifulSoup
- import re
- import time
- html= urlopen("https://mm.taobao.com/self/aiShow.htm?spm=719.7763510.1998643336.1.fpUCYD&userId=2859309431")
- bsobj = BeautifulSoup(html.read())
- img = bsobj.findAll("img",{"src":re.compile("[]*img\.alicdn\.com\/imgextra[]*0-tstar\.jpg")})
- num=1
- print(img[0]["src"])
- for child in img:
- imgurl="https:"+child["src"]
- if num<10:
- picnum="P00"+str(num)
- elif num<100:
- picnum="P0"+str(num)
- else:
- picnum="P"+str(num)
- urlretrieve(imgurl,"H:\\tbmm\"+picnum+".jpg")
- time.sleep(0.3)
- num=num+1
复制代码
|
|