找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 1820|回复: 2

[求助] 关于爬取淘宝信息的问题

1

主题

1

帖子

1

积分

贫民

积分
1
我菜我先跑 发表于 2021-10-5 14:28:28 | 显示全部楼层 |阅读模式
import requests
import re
from bs4 import BeautifulSoup

def getHTMLText(url):
     user_agent="Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.8031 SLBChan/25"
     referer='http://www.google.com/'
     kv={'user-Agent':'user_agent','referer':'referer','cookie':'cna=CW/bGZjr0FgCAd9IW5KvPJ5B; sca=2dad4c0f; cad=17c4c20bb64-5123451325930037890001; cap=1ffc; cnaui=2208675988244; aui=2208675988244; tbsa=08631fe094270387e26854f8_1633411912_2; atpsida=f1ee1011d1216aafb727853f_1633411912_2; atpsidas=3a3b699c596572316ec9d24d_1633411912_2'}
     r= requests.get(url,headers=kv,timeout=30)
     r.raise_for_status()
     r.encoding=r.apparent_encoding
     return r.text


def parsePage(ilt,html):
    print(html)
    try:
        plt=re.findall(r'\"view_price\"\:\"[\d.\.]*\"',html)
        tlt=re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(plt)):
             price=eval(plt(i).split(':')[1])
             title=eval(tlt(i).split(':')[1])
             ilt.append([price,title])
    except:
        print("")

def printGoodslist(ilt):
    tplt= "{:4}\t{:8}\t{:16}"
    print(tplt.format("序号","价格","商品名称"))
    count=0
    for g in ilt:
          count=count+1
          print(tplt.format(count,g[0],g[1]))

def main():
    goods='书包'
    depth=3
    start_url='https://s.taobao.com/search?q=' + goods
    infoList=[]
    for i in range(depth):
          try:
              url=start_url+'&s='+str(44*i)
              html=getHTMLText(url)
              parsePage(infoList,html)
          except:
               continue
    printGoodslist(infoList)


main()        





            为什么我这个代码爬不了任何数据,是代码敲错了吗

回复

使用道具 举报

0

主题

22

帖子

22

积分

贫民

积分
22
lazycat79 发表于 2021-10-10 16:32:06 | 显示全部楼层
这套代码抓出来的是taobao登陆页面,应该是有防爬虫机制,页面跳转了。在user_agent, referer, kv几个变量再研究研究,或者有其他办法能躲过防爬虫。
回复 支持 反对

使用道具 举报

0

主题

2

帖子

2

积分

贫民

积分
2
feizhuxia 发表于 2021-10-11 10:35:54 | 显示全部楼层
会自动跳到登录页,需要先登录后再搜索
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表