求大神看看find_all报错

jxdcjs · 发表于 2019-12-30 20:41:32

import requests

from bs4 import BeautifulSoup

res = requests.get('https://movie.douban.com/top250?start=0&filter=')
soup = BeautifulSoup(res.text,'html.parser')
items = soup.find('ol', class_="grid_view").find_all('li')
print(items)# 报错# AttributeError: 'NoneType' object has no attribute 'find_all'

sheeboard · 发表于 2019-12-31 12:27:16

本帖最后由 sheeboard 于 2019-12-31 12:31 编辑

需要包头，嫌麻烦用selenium。

jxdcjs · 发表于 2019-12-31 17:03:03

sheeboard 发表于 2019-12-31 12:27
需要包头，嫌麻烦用selenium。

大佬能稍微具体一点点吗，我有点小白，查了好久也没查到

sheeboard · 发表于 2020-1-2 08:58:01

from bs4 import BeautifulSoup
from selenium import webdriver
url='https://movie.douban.com/top250?start=0&filter='
driver=webdriver.Firefox(executable_path=''/路径/geckodriver“)
driver.get(url)
html=driver.page_source
soup=BeautifulSoup(html,'html.parser')
后面就可以提取你要的数据了。
用requests的话需要设置http包的header，不然返回状态码不是200,就得不到页面代码，这个论坛里用requests抓这个网页的我至少看到过两次例子，不过豆瓣也可能更改过服务端的功能，我没去验证过，自己再找一下吧，作为参考。

pi_shen · 发表于 2020-1-7 19:11:25

由于网站的爬虫限制，可能需要设置requests的header参数，为查看是否爬取成功，建议加上一句print(res.status_code)查看是否返回状态码200

priest0o · 发表于 2020-1-19 16:46:05

首先soup.find('ol', class_="grid_view")没有拿到东西

		自动登录	找回密码
密码			立即注册

[求助] 求大神看看find_all报错