找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 4616|回复: 1

[已回复] Python爬虫如何模拟具有嵌入式框架的浏览器

2

主题

2

帖子

2

积分

贫民

积分
2
zen125 发表于 2016-11-7 10:26:26 | 显示全部楼层 |阅读模式
在爬取网站时 使用呢Request之后返回这样的信息
<td><iframe border="0" frameborder="0" id="I1" marginheight="1" marginwidth="1" name="I1" scrolling="No" src="/iframe/foot_800.htm" target="_top" width="100%">浏览器不支持嵌入式框架,或被配置为不显示嵌入式框架。</iframe></td>


源码如下:
from bs4 import BeautifulSoup
import requests
import csv
import time
headers = {
    'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
    'Cookie:JSESSIONID=00001_i1x8XBaQj3qAMdO82TlG-:-1; _gscs_892086308=784806351ujwjq16|pv:3; _gscbrs_892086308=1; _gscu_892086308=7848063507o2fe16'
}
url = 'http://knews.shaanxi.gov.cn/IssuedContentAction.do?dispatch=vContentListBySubid&scope=tblist'
def get_url(url,data=None):
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text,'lxml')
print(soup)

get_url(url)
回复

使用道具 举报

50

主题

1057

帖子

1108

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1108

活跃会员热心会员最佳导师默默耕耘突出贡献优秀版主荣誉管理论坛元老

blueelwang 发表于 2016-11-8 19:13:35 | 显示全部楼层
你这是想干啥?违法的事情不要干哦
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表