找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 4251|回复: 0

[代码与实例] 爬取简书网文字

3

主题

4

帖子

4

积分

贫民

积分
4
北风 发表于 2016-9-2 20:32:53 | 显示全部楼层 |阅读模式
__author__ = '打错一只北风'
from bs4 import BeautifulSoup
import requests


#url的兄弟姐妹
def get_urls(url):
    html = requests.get(url).text
    soup = BeautifulSoup(html, "html.parser")
    soups = soup.find_all(target="_blank")
    ff = []
    urls = {}
    for soup0 in soups:
        ff.append(soup0.get('href'))
    for i in range(len(ff)):
        urls = 'http://www.jianshu.com'+str(ff)
    print(urls)
    return urls


def url_open(url):
    urls = get_urls(url)
    for url in urls:
        with open('jianshu.html','ab') as file:
            html = requests.get(url).text
            file.write(html)
#解析html,以得到目标对象
def get_mywilling(url):
    url_open(url)
    html = open('jianshu.html','r')
    soup = BeautifulSoup(html, "html.parser")
    return soup.find_all('p')



#将目标对象排版,储存
def save_mywilling():
    mywilling = get_mywilling(url)
    with open('D:jianshu.txt','ab') as file:
        goal = str(mywilling).encode('utf-8')
        file.write(goal)
        file.close()
        print('成功收集一次!')


#主函数
def main():
    print('爬虫启动中')
    save_mywilling()



#模块测试
if __name__=='__main__':
    url = 'http://www.jianshu.com/'
main()
    #get_urls(url)
'''
<a target="_blank" href="/p/adf0509309d9">15个小方法,专治各种不开心</a>
http://www.jianshu.com/p/adf0509309d9
'''
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表