新手有关爬虫下载网页图片的问题

Pythonquene · 发表于 2016-7-17 11:41:24

这是我写的代码。
我上网查了很多别人写的代码，对比了一下，还是不知道出现了什么问题。运行的时候，结果是［］。

#coding=utf-8
import re
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getlmg(html):
reg = r'src="(.+?)" height'
reimg = re.compile(reg)
imglist = re. findalK reimg, html)
return imglist
html = getHtml("http://cn.bing.com/academic/?F0RM=Z9LH2")
print getlmg(html)

复制代码

blueelwang · 发表于 2016-7-17 17:51:34

兄弟，把大把发出来吧，你贴图让我们怎么调试啊？

落叶秋风 · 发表于 2016-7-17 20:46:21

我最近也在看python爬虫的资料，并且写了几个爬图的程序，你把代码贴出来或者加我QQ1055072354我们一起探讨下你遇到的问题，我根据你描述的情况，可能是你匹配图片下载链接的正则表达式没有匹配到下载链接的问题，你可以参考下

mongo · 发表于 2016-7-18 12:53:40

运行过你的代码，写的没有问题，但是根据你提供的html，查看源码是没有找到 src="" height 这一匹配项的，

Pythonquene · 发表于 2016-7-18 22:03:07

blueelwang 发表于 2016-7-17 17:51
兄弟，把大把发出来吧，你贴图让我们怎么调试啊？

#coding=utf-8

import re
import urllib

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

def getImg(html):
reg = r'src="(.+?)" height'
reimg = re.compile(reg)
imglist = re.findall(reimg,html)
return imglist

html = getHtml("http://cn.bing.com/academic/?FORM=Z9LH2")
print getImg(html)

blueelwang · 发表于 2016-7-18 22:26:55

兄弟，你的这个地址里面确实匹配不到 src="xxx" height 的内容，你可以查看网页源代码查找，不用使用fire debug 或者chrome的调试工具查看代码，那种代码是浏览器渲染后的代码，并不是网页的真实代码。

mongo · 发表于 2016-7-19 09:52:18

mongo 发表于 2016-7-18 12:53
运行过你的代码，写的没有问题，但是根据你提供的html，查看源码是没有找到 src="" height 这一匹配项的， ...

阅读网页源码 ,搜索一下height=

Pythonquene · 发表于 2016-7-19 11:21:37

blueelwang 发表于 2016-7-18 22:26
兄弟，你的这个地址里面确实匹配不到 src="xxx" height 的内容，你可以查看网页源代码查找，不用使用fire ...

我刚刚去网页看了，果然不一样。上图是右键点击图片显示细节。
而网页源代码文件是下图这样的：

如果是这样的源代码那么找到图片表示的代码岂不是很麻烦？：）

落叶秋风 · 发表于 2016-7-19 11:26:11

代码运行起来没问题，但我发现一个小错误，就是那个imglist = re. findalK reimg, html)这句我换成findall了，楼主这句估计是笔误吧，然后我想问下楼主是想匹配图片链接呢还是别的什么，把问题描述的清楚一点，我好测试，给楼主找找问题看看

blueelwang · 发表于 2016-7-19 12:14:26

Pythonquene 发表于 2016-7-19 11:21
我刚刚去网页看了，果然不一样。上图是右键点击图片显示细节。
而网页源代码文件是下图这样的：

看你具体的需求吧，优化正则表达式即可

		自动登录	找回密码
密码			立即注册

[已回复] 新手有关爬虫下载网页图片的问题

相关帖子

点评

点评

点评

活跃会员

热心会员

最佳导师

默默耕耘

突出贡献

优秀版主

荣誉管理

论坛元老

最佳新人