找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 107|回复: 0

[代码与实例] python爬虫利用代理IP分析大数据

11

主题

12

帖子

12

积分

贫民

积分
12
laical 发表于 2020-11-11 17:09:29 | 显示全部楼层 |阅读模式
在这个互联网时代,HTTP代理成了不可缺少的一部分,我们都知道IP代理商也越来越多。那如何选择代理商成了大家选择的难题。其实爬虫用户完全可以通过代理IP的有效时间,代理IP的有效率,稳定性和自己去的需求去选择自己需要的代理IP。
随着爬虫用户越来越多,使用代理IP也多了起来,代理IP也帮助了爬虫成功采集到数据,让自己的业务有更好的发展。
大数据时代,离不开网络爬虫,网络爬虫也支持许多语言例如常见的python、java、php、c 语言等其他语言,每个语言对应的爬虫需求和环境不同,爬虫用户选择语言自然也不同。
一般爬虫都会选择python和java,python爬虫之所以被大众选择,因为使用简单。在使用python爬虫进行数据抓取的时候,也有可能IP会被限制,避免业务效率下降,这时候就需要用到隧道转发的http爬虫代理。
爬虫用户如何利用python爬虫成功采集到数据:
  1. #! -*- encoding:utf-8 -*-

  2.     import aiohttp, asyncio


  3.     targetUrl = "http://httpbin.org/ip"

  4.     # 代理服务器(产品官网 www.16yun.cn)
  5.     proxyHost = "t.16yun.cn"
  6.     proxyPort = "31111"

  7.     # 代理验证信息
  8.     proxyUser = "username"
  9.     proxyPass = "password"

  10.     proxyServer = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
  11.         "host" : proxyHost,
  12.         "port" : proxyPort,
  13.         "user" : proxyUser,
  14.         "pass" : proxyPass,
  15.     }

  16.     userAgent = "Chrome/83.0.4103.61"

  17.     async def entry():
  18.         conn = aiohttp.TCPConnector(verify_ssl=False)

  19.         async with aiohttp.ClientSession(headers={"User-Agent": userAgent}, connector=conn) as session:
  20.             async with session.get(targetUrl, proxy=proxyServer) as resp:
  21.                 body = await resp.read()

  22.                 print(resp.status)
  23.                 print(body)

  24.     loop = asyncio.get_event_loop()
  25.     loop.run_until_complete(entry())
  26.     loop.run_forever()
复制代码


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表