找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 5127|回复: 1

[已回复] 爬蟲scrapy redirect 302問題

1

主题

1

帖子

1

积分

贫民

积分
1
billbird 发表于 2016-11-18 20:19:53 | 显示全部楼层 |阅读模式
我是個python新手,最近在學習寫爬蟲,但遇到了障礙,參考了網路上的文章,302重定向的問題一直無法解決。

我想從一財經網站抓取新聞,目前已能把每條新聞的連結取下來,但要透過scrapy來抓取新聞內文時,就卡了。
加入handle_httpstatus_list = [301, 302]這行也行不通,附上程式碼,還請各位幫忙。

import scrapy
from bs4 import BeautifulSoup

class investorcrawler(scrapy.Spider):
    name = 'investor'
    start_urls=['http://ww2.money-link.com.tw/Product/Investor_Page/Investor_News.aspx']
    handle_httpstatus_list = [301, 302]
    def parse(self, response):
           domain = 'http://ww2.money-link.com.tw/Product/Investor_Page'
           res = BeautifulSoup(response.body,"html.parser")
           for news in res.findAll('a',href=True,limit=10):
                #print (domain + news.get('href'))
                 yield scrapy.Request(domain + news.get('href'), callback=self.parse_detail)
            
    def parse_detail(self,response):
          res = BeautifulSoup(response.body,"html.parser")
         print (res.select('#newsContent'))

回复

使用道具 举报

50

主题

1057

帖子

1108

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1108

活跃会员热心会员最佳导师默默耕耘突出贡献优秀版主荣誉管理论坛元老

blueelwang 发表于 2016-11-20 21:09:08 | 显示全部楼层
domain = 'http://ww2.money-link.com.tw/Product/Investor_Page' 改成
domain = 'http://ww2.money-link.com.tw/Product/Investor_Page/'
最后加一个斜杠, 不然url是错误的
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表