找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 4171|回复: 0

[代码与实例] 简单的淘女郎抓取例子

1

主题

1

帖子

1

积分

贫民

积分
1
duocool 发表于 2016-12-30 17:10:07 | 显示全部楼层 |阅读模式
本帖最后由 duocool 于 2016-12-30 17:12 编辑

python刚刚在学,爬虫也是刚刚在学,最好的学习就是边学边练。前两天看到论坛里有哥们弄了个淘女郎爬虫,写得很复杂,弄了个类啥的,不过好像下载图片遇到点麻烦,今天却再也找不到这个贴子了。

献丑把自己练习的脚本贴出来,发现只一句匹配的正则表达式比较有用。

python 3.5环境:

结果发现有个小问题,有些明明很小的图,大小却超过了5M,打开也是正常的

截图

截图


  1. from urllib.request import urlopen
  2. from urllib.request import urlretrieve
  3. from bs4 import  BeautifulSoup
  4. import re
  5. import time

  6. html= urlopen("https://mm.taobao.com/self/aiShow.htm?spm=719.7763510.1998643336.1.fpUCYD&userId=2859309431")
  7. bsobj = BeautifulSoup(html.read())

  8. img = bsobj.findAll("img",{"src":re.compile("[]*img\.alicdn\.com\/imgextra[]*0-tstar\.jpg")})
  9. num=1
  10. print(img[0]["src"])
  11. for child in img:
  12.     imgurl="https:"+child["src"]
  13.     if num<10:
  14.         picnum="P00"+str(num)
  15.     elif num<100:
  16.         picnum="P0"+str(num)
  17.     else:
  18.         picnum="P"+str(num)
  19.     urlretrieve(imgurl,"H:\\tbmm\"+picnum+".jpg")
  20.     time.sleep(0.3)
  21.     num=num+1
复制代码


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表