找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 3937|回复: 0

[代码与实例] UC奇趣百科内容提取

0

主题

0

帖子

0

积分

贫民

积分
0
Occ 发表于 2016-10-5 01:31:27 | 显示全部楼层 |阅读模式
  1. import re
  2. import sys
  3. import io
  4. from bs4 import BeautifulSoup
  5. from selenium import webdriver
  6. from datetime import datetime

  7. def hot():
  8. driver = webdriver.PhantomJS()
  9. myUrl = 'http://qiqu.uc.cn/?uc_param_str=frpfvedncpssntnwbipreime#!/changwen?id=0902389688c6731bf26928a6ecfedbec!!tag=xjrb!!from=index__index'
  10. driver.get(myUrl)

  11. fp = open(datetime.now().date().isoformat()+'.html', 'a+', encoding='utf-8') # 用来将主页上的个人信息存储
  12. bsObj=BeautifulSoup(driver.page_source,features= "html.parser")
  13. myItems = bsObj.find_all('div',{'class':'cw-content'})


  14. for item in myItems:
  15. fp.write(item.prettify())
  16. print(item)


  17. print(u'------------------------------结束-----------------------------------------')

  18. if __name__=='__main__':
  19. sys.stdout = io.TextIOWrapper(sys.stdout.buffer, errors='replace', line_buffering=True) # print(打印中文)


  20. hot()
  21. sys.stdout.flush()
  22. input()
复制代码

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表