|
from bs4 import BeautifulSoup
from selenium import webdriver
url='https://movie.douban.com/top250?start=0&filter='
driver=webdriver.Firefox(executable_path=''/路径/geckodriver“)
driver.get(url)
html=driver.page_source
soup=BeautifulSoup(html,'html.parser')
后面就可以提取你要的数据了。
用requests的话需要设置http包的header,不然返回状态码不是200,就得不到页面代码,这个论坛里用requests抓这个网页的我至少看到过两次例子,不过豆瓣也可能更改过服务端的功能,我没去验证过,自己再找一下吧,作为参考。 |
|