找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 6185|回复: 4

[代码与实例] python BeautifulSoup 抓取python中文开发者社区中的所有高级教程

3

主题

7

帖子

12

积分

贫民

积分
12
jpy 发表于 2016-11-30 16:25:22 | 显示全部楼层 |阅读模式
  1. #coding=utf-8
  2. from bs4 import BeautifulSoup
  3. import urllib2

  4. url = 'http://www.pythontab.com/html/pythonhexinbiancheng/index.html'
  5. url_list = [url]
  6. for i in range(2,19):
  7.     url_list.append('http://www.pythontab.com/html/pythonhexinbiancheng/%s.html'%i)
  8. source_list = []
  9. for j in url_list:
  10.     request = urllib2.urlopen(j)
  11.     html = request.read()
  12.     suop = BeautifulSoup(html,'lxml')
  13.     titles = suop.select('#catlist > li > a')
  14.     links = suop.select('#catlist > li > a')
  15.     for title, link in zip(titles, links):
  16.         data = {
  17.             "title" : title.get_text(),
  18.             "link" : link.get('href')
  19.         }
  20.         source_list.append(data)
  21.     for l in source_list:
  22.         request = urllib2.urlopen(l['link'])
  23.         html = request.read()
  24.         suop = BeautifulSoup(html,'lxml')
  25.         text_p = suop.select('#Article > div.content > p')
  26.         text = []
  27.         print(text_p)
  28.         for t in text_p:
  29.             text.append(t.get_text().encode('utf-8'))
  30.         title_text  = l['title']
  31.         title_text = title_text.replace('*','').replace('/','or').replace('"',' ').replace('?','wenhao').replace(':',' ')

  32.         with open('%s.txt'%title_text, 'wb') as f:
  33.             for a in text:
  34.                 f.write(a)
复制代码


58e1bf65da7ffe0a7a13d1b6b7b8a7a3.png
f48066fbc6913ae3e2639c002da92906.png
回复

使用道具 举报

50

主题

1057

帖子

1108

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1108

活跃会员热心会员最佳导师默默耕耘突出贡献优秀版主荣誉管理论坛元老

blueelwang 发表于 2016-12-1 08:38:23 | 显示全部楼层
厉害了我的jpy兄弟
回复 支持 反对

使用道具 举报

3

主题

7

帖子

12

积分

贫民

积分
12
jpy  楼主| 发表于 2016-12-5 11:16:26 | 显示全部楼层
blueelwang 发表于 2016-12-1 08:38
厉害了我的jpy兄弟

刚刚开始学爬虫,还是菜鸟,正努力搬砖中。。。
回复 支持 反对

使用道具 举报

0

主题

4

帖子

4

积分

贫民

积分
4
sunmengpro 发表于 2017-2-4 12:17:25 来自手机 | 显示全部楼层
厉害了,楼主,多谢分享
回复 支持 反对

使用道具 举报

1

主题

5

帖子

5

积分

贫民

积分
5
2740710202 发表于 2017-8-9 12:59:10 | 显示全部楼层
是python3的把
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表