BeautifulSoup解析网页

wx_ylJ154rf · 发表于 2021-6-5 18:07:51

import requests
from bs4 import BeautifulSoup
import re
url='https://movie.douban.com/chart'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
f=requests.get(url,headers=headers).text

from lxml import etree

pattern = re.compile(r'<[^>]+>', re.S)

result = pattern.sub('',f)

print(result)

我已经用这个成功解析了网页，并删除了一大推的字符，可不可以再帮忙看看，怎样彻底筛选出里面的所有汉字

一杆钓起满天星 · 发表于 2021-7-2 11:32:51

import requests
from bs4 import BeautifulSoup

url='https://movie.douban.com/chart'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
f=requests.get(url,headers=headers).text

soup = BeautifulSoup(f,"lxml")
div1 = soup.find("div",{"class":"indent"})
table = div1.find_all("table",{"width":"100%"})
for t in table:
print(t.find("div",{"class":"pl2"}).a.text.strip(),"\n",
      t.find("div", {"class": "pl2"}).a['href'],"\n",
      t.find("div",{"class":"pl2"}).p.text,"\n",
      t.find("div",{"class":"pl2"}).div.find("span",{"class":"pl"}).text,"\n",)

一杆钓起满天星 · 发表于 2021-7-2 11:37:38

import requests
from bs4 import BeautifulSoup

url='https://movie.douban.com/chart'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
f=requests.get(url,headers=headers).text

soup = BeautifulSoup(f,"lxml")
div1 = soup.find("div",{"class":"indent"})
table = div1.find_all("table",{"width":"100%"})
for t in table:
print(t.find("div",{"class":"pl2"}).a.text.strip(),"\n",
      t.find("div", {"class": "pl2"}).a['href'],"\n",
      t.find("div",{"class":"pl2"}).p.text,"\n",
      t.find("div",{"class":"pl2"}).div.find("span",{"class":"pl"}).text,"\n",)

一杆钓起满天星 · 发表于 2021-7-2 11:47:38

import requests
from bs4 import BeautifulSoup
url='https://movie.douban.com/chart'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
f=requests.get(url,headers=headers).text
soup = BeautifulSoup(f,"lxml")
div1 = soup.find("div",{"class":"indent"})
table = div1.find_all("table",{"width":"100%"})
for t in table:
print(t.find("div",{"class":"pl2"}).a.text.strip(),"\n",
t.find("div", {"class": "pl2"}).a['href'],"\n",
t.find("div",{"class":"pl2"}).p.text,"\n",
t.find("div",{"class":"pl2"}).div.find("span",{"class":"pl"}).text,"\n",

复制代码

zuoshou2000 · 发表于 2021-7-6 14:57:57

单数据提取，在重组.

zuoshou2000 · 发表于 2021-7-6 15:11:46

import requests
import re
url='https://movie.douban.com/chart'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
f=requests.get(url,headers=headers).text
listurl = re.findall(r'<a.*href="(.*?)".*?title="(.*?)">',f)
print(listurl)

zuoshou2000 · 发表于 2021-7-6 15:52:48

listurl = re.findall(r'<a.*href="(.*?)".*?title="(.*?)">',f)
for i in listurl:
print(i)

		自动登录	找回密码
密码			立即注册

[求助] BeautifulSoup解析网页