找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 2115|回复: 0

[求助] scrapy 分布式爬取豆瓣读书,上了代理之后还是会跳转到验...

1

主题

1

帖子

1

积分

贫民

积分
1
Virace 发表于 2018-6-20 12:35:02 | 显示全部楼层 |阅读模式
  1. # -*- coding: utf-8 -*-
  2. from scrapy.spiders import CrawlSpider, Rule
  3. from scrapy.linkextractors import LinkExtractor
  4. from master.items import MasterItem


  5. class CsdnMasterSpider(CrawlSpider):
  6.     name = 'book_master'
  7.     allowed_domains = ['douban.com']
  8.     item = MasterItem()
  9.     start_urls = ['https://book.douban.com/tag/']
  10.     rules = (
  11.         Rule(LinkExtractor(allow=('https://book.douban.com/tag/[\u4e00-\u9fa5]+',)), callback='parse_item',
  12.              follow=True),
  13.     )

  14.     def parse_item(self, resp**e):
  15.         for li in resp**e.css('#subject_list > ul > li'):
  16.             href = li.css('div.info > h2 > a::attr("href")').extract_first()
  17.             item = self.item
  18.             item['url'] = href
  19.             yield item
复制代码


做分布式练习,这是主爬虫,只是将所有的图书链接扔到redis里

接了 蘑菇代理中的隧道代理,测试也代理成功了

但是几百或一千条数据也会跳转到验证码页面

还会报个错


停一下,等待1分钟 再爬还能爬几百条。

怎么才能更“稳定的”爬取呢
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表