我刚学的爬虫，在保存到文件过程中遇到了问题。

asd5412487 · 发表于 2017-12-7 22:32:59

本帖最后由 asd5412487 于 2017-12-7 22:34 编辑

from bs4 import BeautifulSoup
import requests
import time
import urllib
url = 'http://www.chinaseed114.com/seed/pzdq/'
r = requests.get(url)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text,'lxml')
def get_url(url):
url1=[]
urls=soup.select('tr > td > a')
for url in urls:
url1.append(url.get('href'))
return url1
def get_single_url(url):
c=[]
urls =[str(url)+'{}.html'.format(str(i)) for i in range(1,80,1)]
for single_url in urls:
c.extend(get_detail_name(single_url))
return c
def get_detail_name(url):
try:
a=[]
r = requests.get(url,timeout=8)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text,'lxml')
if 'miaomu' in url:
return(get_miaomu_name(url))
else:
names=soup.select('tr > td > ul > li.t_c > a.px14')
for name in names:
a.append(name.get_text())
return a
except:
pass
def get_miaomu_name(url):
b=[]
r = requests.get(url)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text,'lxml')
names1=soup.select('ul > li.catlist_li > a')
for name1 in names1:
b.append(name1.get_text())
return b
def get_item_info(url):
names=soup.select('tr > td > a')
urls=get_url(url)
for name,url1 in zip(names,urls):
r = requests.get(url1)
r.encoding = r.apparent_encoding
soup1 = BeautifulSoup(r.text,'lxml')
data={
'品种':name.get_text(),
'详细':get_single_url(url1)
}
with open("test.txt",'a+') as f:
f.write('品种：{}\t详细:{}\n'.format(data['品种'],data['详细'])) #把data的内容弄到一个文件里
get_item_info(url)

复制代码

代码的模块是没有错的，主要问题是后面的文件保存那里。
出现的错误是：UnicodeEncodeError: 'gbk' codec can't encode character '\ufffd' in position 1501: illegal multibyte sequence
我有看不懂错误的原因。也不懂该如何修改。
请大神们指教。

剑心无痕 · 发表于 2017-12-8 10:18:19

你爬去的数据里有脏数据例如下面
data['详细'][168]  # '\ufffd\ufffd丰339'
如果不想报错脏数据可以这样
for i in data['详细']
try:
      f.write(i)#示例写入，具体写入格式自调
except:
      pass

如果想保存'\ufffd\ufffd丰339'中的'丰339'
for i in data['详细']
for j in i:
      if j < '\ufffd': # 如果报出错误写入'\ufffc' 则把比较改为j < '\ufffc'
         f.write(i)#示例写入，具体写入格式自调

asd5412487 · 发表于 2017-12-8 15:39:20

剑心无痕发表于 2017-12-8 10:18
你爬去的数据里有脏数据例如下面
data['详细'][168] # '\ufffd\ufffd丰339'
如果不想报错脏数据可以这样

我试了下第二种方法，获得了13G的内容，不过全都是重复的，而且似乎都是我要爬的第一页的内容，并且爬了13G后出现了错误UnicodeEncodeError: 'gbk' codec can't encode character '\u30fb' in position 103: illegal multibyte sequence

剑心无痕 · 发表于 2017-12-8 15:51:13

asd5412487 发表于 2017-12-8 15:39
我试了下第二种方法，获得了13G的内容，不过全都是重复的，而且似乎都是我要爬的第一页的内容，并且爬了1 ...

for i in data['详细']
for j in i:
      try: # 暴力写入，能写的字符就写，写不了的就跳过
         f.write(j)#示例写入，具体写入格式自调
      except:
         pass

剑心无痕 · 发表于 2017-12-8 15:53:15

asd5412487 发表于 2017-12-8 15:39
我试了下第二种方法，获得了13G的内容，不过全都是重复的，而且似乎都是我要爬的第一页的内容，并且爬了1 ...

在requests.get(url)之前把url打印出来，看看是不是每次获取的都是同个url，调试一下

asd5412487 · 发表于 2017-12-8 18:26:53

剑心无痕发表于 2017-12-8 15:53
在requests.get(url)之前把url打印出来，看看是不是每次获取的都是同个url，调试一下 ...

http://www.chinaseed114.com/seed/yumi/
http://www.chinaseed114.com/seed/xiaomai/
http://www.chinaseed114.com/seed/shuidao/
http://www.chinaseed114.com/seed/mianhua/
http://www.chinaseed114.com/seed/youliao/
http://www.chinaseed114.com/seed/guacai/
Traceback (most recent call last):
  File "D:\Python36\农作物品种.py", line 66, in <module>
get_item_info(url)
  File "D:\Python36\农作物品种.py", line 57, in get_item_info
'详细':get_single_url(url1)
  File "D:\Python36\农作物品种.py", line 19, in get_single_url
c.extend(get_detail_name(single_url))
TypeError: 'NoneType' object is not iterable
这是运行的结果，不过我打开了text，也是跟原来的一样重复的只是第一个网站的第一页的内容。

asd5412487 · 发表于 2017-12-8 19:08:18

剑心无痕发表于 2017-12-8 15:53
在requests.get(url)之前把url打印出来，看看是不是每次获取的都是同个url，调试一下 ...

抱歉，是我的代码打错了一个字母，但是内容还是不对，比如小麦的品种，它重复打印了很多次。还有，我在别的论坛上看到有一种方法，就是import codecs，你觉得可不可行？

asd5412487 · 发表于 2017-12-8 19:54:32

asd5412487 发表于 2017-12-8 18:26
http://www.chinaseed114.com/seed/yumi/
http://www.chinaseed114.com/seed/xiaomai/
http://www.chinas ...

我自己认真研究了一下，做了些改进，能够成功把信息保存下来了。
在后面的保存那里改为：
root = data['品种']
path =root+'.txt'
f=codecs.open(path,'wb',encoding='utf-8')
f.write('品种：{}\t详细:{}'.format(data['品种'],data['详细']))
f.close()
btw：谢谢你的帮助！！

		自动登录	找回密码
密码			立即注册

[求助] 我刚学的爬虫，在保存到文件过程中遇到了问题。

热心会员

默默耕耘

优秀版主