|
先看下代码,因为刚学习,抓一个新浪网页做实验。
系统是window 10 ,在cmd 下输出结果。
import urllib,requests
from bs4 import BeautifulSoup
url1='http://news.sina.com.cn/o/2017-08-11/doc-ifyixcaw4263377.shtml'
res = requests.get(url1)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html5lib')
print soup.select('#artibody p')
然后输出的结果是:
[<p>\u3000\u3000\u539f\u6807\u9898\uff1a\u5317\u4eac\u6c14\u8c61\u53f0\u53d1
u670811\u65e519\uff1a45\uff0c\u5317\u4eac\u6c14\u8c61\u53f0\u53d1\u5e03\u51b
/p>, <p>\u3000\u3000\u4eca\u665a19\u70b9\u534a\u524d\u540e\uff0c\u5317\u4eac
类似这样的编码.
但是:print soup.select('#artibody p')加上【0】,显示的是
PS C:\Users\jing> python e:/pc3.py
<p>銆€銆€鍘熸爣棰橈細鍖椾含姘旇薄鍙板彂甯冨啺闆归粍鑹查璀?鍩庡尯閬亣鍐伴浌澶╂皵</p>
乱码!
如果再后面加上.text,形成print soup.select('#artibody p')[0].text
显示:C:\Users\jing> python e:/pc3.py
原标题:北京气象台发布冰雹黄色预警 城区遭遇冰雹天气
正常了!!!!懵逼了!!这是啥情况,看网上别人的不是这样啊
|
|