投稿    登录
欢迎来访~

小白学爬虫之代理(公有云)

Linux 哎哟卧槽 9436浏览 2评论

扫码或搜索:进击的Coder

发送

即可立即永久解锁本站全部文章

 

Hello 各位小伙伴 雷门吼!

在教程之前首先申明!此教程适合土豪不缺钱的玩家

潜水了许久了,今天来更新点东西~

今天说点啥呢? 那就是代理!!

代理在爬虫界的重要作用相信各位应该清楚吧!毕竟绝大部分反爬可以靠代理解决;不能被代理解决的也得要代理配合解决。

市面上各种代理也是琳琅满目的说···  相信大家最喜欢用的之一应该就是 某布云。

根据官网的显示他他家的代理是这个样子的:

  • 无须切换 IP,每一个请求一个随机 IP。

哇!感觉很爽的样子今天我们就来实现一个类似的代理! 其实 So Easy!

我们需要借助 公有云 来实现。

 

下面我以 AWS 举例(其它公有云操作类似,唯一的区别的就是:各个服务的名字不同而已)

 

  1. 首先我们需要需要使用EC2来建立一个代理(Google Could 叫 GCE)
    1. 安装Squid(当然你可以使用其它的代理)
      1. 无认证安装参考这儿(点我)设置代理服务器那一段
      2. MySQL认证安装(点我)
      3. Note: 请注意检查!!!务必设置Ipv4转发
  2. 安装完成之后我们制作启动模板(毕竟一个EC2 一个IP 你总不能安装很多很多台吧!会死人的)
    1. 注意设置你的安全组!正常情况下 入站规则只应该有你需要的端口(squid使用的端口一定要放心!嫌麻烦的小伙伴儿 可以进出都放行全部流量!)出站则是全部流量!
    2. 启动EC2的时候选择安全组一定要看清是否是设置过放行的规则! 不要选错了!
    3. 好了现在就可以批量启动了!
    4. 实例数量就是需要同时有多少个IP就启动多少个了。
  3. 设置前端负载均衡(提供一个固定地址,这个地址负责随机将请求转发到后端代理服务器上)
    1. 必须使用TCP四层负载!原因为啥大家自己百度一哈
    2. 等待负载均衡器启动完成!
    3. 启动完成后获取负载地址
  4. 下面来测试一下效果!

以上完毕!你可以不停的重启Ec2实例!你就有百万IP池啦!!(前提是你有钱啊)

 

下面是重启Ec2的示例:

 

 

转载请注明:静觅 » 小白学爬虫之代理(公有云)

更多文章、联系博主、技术交流、商务合作

扫码或搜索:进击的Coder

进击的Coder

微信公众号 扫一扫关注

喜欢 (18)or分享 (0)

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(2)个小伙伴在吐槽
  1. 这个不错
    http://www.cj318.cn2019-04-04 17:47 回复