简单的淘女郎抓取例子

duocool · 发表于 2016-12-30 17:10:07

本帖最后由 duocool 于 2016-12-30 17:12 编辑

python刚刚在学，爬虫也是刚刚在学，最好的学习就是边学边练。前两天看到论坛里有哥们弄了个淘女郎爬虫，写得很复杂，弄了个类啥的，不过好像下载图片遇到点麻烦，今天却再也找不到这个贴子了。

献丑把自己练习的脚本贴出来，发现只一句匹配的正则表达式比较有用。

python 3.5环境：

结果发现有个小问题，有些明明很小的图，大小却超过了5M，打开也是正常的

截图

from urllib.request import urlopen
from urllib.request import urlretrieve
from bs4 import BeautifulSoup
import re
import time
html= urlopen("https://mm.taobao.com/self/aiShow.htm?spm=719.7763510.1998643336.1.fpUCYD&userId=2859309431")
bsobj = BeautifulSoup(html.read())
img = bsobj.findAll("img",{"src":re.compile("[]*img\.alicdn\.com\/imgextra[]*0-tstar\.jpg")})
num=1
print(img[0]["src"])
for child in img:
imgurl="https:"+child["src"]
if num<10:
picnum="P00"+str(num)
elif num<100:
picnum="P0"+str(num)
else:
picnum="P"+str(num)
urlretrieve(imgurl,"H:\\tbmm\"+picnum+".jpg")
time.sleep(0.3)
num=num+1

复制代码

		自动登录	找回密码
密码			立即注册

[代码与实例] 简单的淘女郎抓取例子