爬虫反复爬取一个界面的数据如何解决

MSX6666 · 发表于 2021-12-5 22:03:49

老哥们紧急求助，之前跟着一个视频教程来敲一个爬取懂车帝二手车的数据，前一整子还能够正常爬取但是最近可能是网页有了一下变动由于我不会举一反三导致我的爬虫页面一直反复爬取一个页面重复爬取
我爬取的网站是：https://www.dongchedi.com/usedca ... x-x-x-x-x-x-x-x-x-x
求助大佬帮忙！！！感激不尽
代码如下：
import requests    # 发送网络请求
import parsel    # 解析数据
import csv       # 保存数据

csv_dcd = open('dcd.csv', mode='a', encoding='utf-8', newline='')
csv_write = csv.writer(csv_dcd)
csv_write.writerow(['品牌', '车龄', '里程(万公里)', '城市', '认证', '售价(万元)', '原价(万元)', '链接'])
for page in range(1, 168):
# 1. 找到目标网址
url = f'https://www.dongchedi.com/usedcar/x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-1-1-x-x-x-x={page}'
# 2. 发送请求
# 3. 获取数据 html网页源代码
# <Resp**e [200]>: 请求成功的状态码访问这个网站成功了
html_data = requests.get(url).text
# 4. 解析数据 re css xpath bs4 ...
selector = parsel.Selector(html_data)
# get(): 获取一个
# getall(): 获取全部
lis = selector.css('#__next > div:nth-child(2) > div.new-main.new > div > div > div.wrap > ul li')
for li in lis:
      # 二次提取
      # ::text：提取文本内容
      # 品牌
      title = li.css('a dl dt p::text').get()
      # 信息年份里程城市
      # :nth-child(2)：伪类选择器
      info = li.css('a dl dd:nth-child(2)::text').getall()
      # info  列表里面有两个元素
      # 列表合并为字符串
      info_str = ''.join(info)
      # 字符串的分割
      info_list = info_str.split('|')
      car_age = info_list[0]
      mileage = info_list[1].replace('万公里', '')
      city = info_list[2].strip()
      # 链接
      link = 'https://www.dongchedi.com' + li.css('a::attr(href)').get()
      dds = li.css('a dl dd')
      # 如果当前有 4个dd标签
      if len(dds) == 4:
         # 懂车帝认证
         dcd_auth = li.css('a dl dd:nth-child(3) span::text').get()
         price = li.css('a dl dd:nth-child(4)::text').get()
         original_price = li.css('a dl dd:nth-child(5)::text').get()
      else:
         dcd_auth = '无认证'
         price = li.css('a dl dd:nth-child(3)::text').get()
         original_price = li.css('a dl dd:nth-child(4)::text').get()
      price = price.replace('万', '')
      original_price = original_price.replace('新车含税价: ', '').replace('万', '')
      print(title, car_age, mileage, city, dcd_auth, price, original_price, link)
      csv_write.writerow([title, car_age, mileage, city, dcd_auth, price, original_price, link])
csv_dcd.close()

Annadie · 发表于 2021-12-6 10:54:00

url = f'https://www.dongchedi.com/usedcar/x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-1-1-x-x-x-x={page}'

坚持一下for 循环中的页面，是否可以正常访问不同的页面

Annadie · 发表于 2021-12-6 11:22:58

url = f'https://www.dongchedi.com/usedcar/x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-1-1-x-x-x-x={page}'

用这个地址多访问几次，找不同

MSX6666 · 发表于 2021-12-6 20:51:51

Annadie 发表于 2021-12-6 11:22
url = f'https://www.dongchedi.com/usedcar/x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-1-1-x-x-x-x={pag ...

可以翻页了，但是该网站加入了字体反爬，不知道如何解决求指导

cflying · 发表于 2021-12-18 19:47:16

不是有接口么https://www.dongchedi.com/motor/pc/sh/sh_sku_list

Annadie · 发表于 2021-12-20 10:57:21

https://www.dongchedi.com/usedca ... x-x-x-x-1-1-x-x-x-x

https://www.dongchedi.com/usedca ... x-x-x-x-1-2-x-x-x-x

		自动登录	找回密码
密码			立即注册

[求助] 爬虫反复爬取一个界面的数据如何解决