投稿    登录
欢迎来访~

哎哟卧槽的文章

Linux

小白学爬虫之代理(公有云)

小白学爬虫之代理(公有云)
  Hello 各位小伙伴 雷门吼! 在教程之前首先申明!此教程适合土豪不缺钱的玩家 潜水了许久了,今天来更新点东西~ 今天说点啥呢? 那就是代理!! 代理在爬虫界的重要作用相信各位应该清楚吧!毕竟绝大部分反爬可以靠代理解决;不能被代理解决的也得要代理配合解决。 市...

2018-12-26 15:59 9025浏览 2评论 18喜欢

Python

小白进阶之Scrapy第六篇Scrapy-Redis详解

小白进阶之Scrapy第六篇Scrapy-Redis详解
Scrapy-Redis 详解 通常我们在一个站站点进行采集的时候,如果是小站的话 我们使用scrapy本身就可以满足。 但是如果在面对一些比较大型的站点的时候,单个scrapy就显得力不从心了。 要是我们能够多个Scrapy一起采集该多好啊 人多力量大。 很遗憾Scrapy官...

2018-06-06 9:10 133592浏览 1评论 62喜欢

Linux

小白学爬虫-批量部署Splash负载集群

小白学爬虫-批量部署Splash负载集群
部署公司生产环境的Splash集群无奈节点太多 差点被搞死··  还好我有运维神器Ansible,一次编撰终生可用啊!而且这玩意儿 等幂特性 扩容回滚 So Easy!! 闲话少说开搞! 安装Ansible: 看官方文档去:http://www.ansible.com.cn/i...

2017-12-02 11:32 3960浏览 0评论 14喜欢

Python

小白学爬虫-在无GUI的CentOS上使用Selenium+Chrome

小白学爬虫-在无GUI的CentOS上使用Selenium+Chrome
2019年01月04日16:32:17 更新了新的Chrome镜像 将Python版本升级到了3.7 Note: 推荐使用结尾提供的Docker镜像进行二次打包运行代码   各位小伙伴儿的采集日常是不是被JavaScript的各种点击事件折腾的欲仙欲死啊?好不容易找到个...

2017-11-30 10:32 13741浏览 3评论 30喜欢

Python

小白学爬虫-设置Selenium+Chrome代理

小白学爬虫-设置Selenium+Chrome代理
  微博登录限制了错误次数···加上Cookie大批账号被封需要从Cookie池中 剔除被封的账号··· 需要使用代理··· 无赖百度了大半天都是特么的啥玩意儿???结果换成了 Google手到擒来 分分钟解决(那么问题来了?百度除了卖假药还会干啥?) Seleniu...

2017-11-18 11:13 22343浏览 1评论 32喜欢

未分类

小白进阶第七篇(Splash负载均衡)

小白进阶第七篇(Splash负载均衡)
对于Scrapy处理Ajax 处理方式当然是同家兄弟Splash比较靠谱! 但是Splash有个很坑爹的毛病就是负载承受相对较小·· 一不留神就GG了·········· 然后也就没有然后了~~! 所以准备给Splash做一个负载均衡;后端放一大堆的Splash这样总不会GG了吧...

2017-09-26 16:21 7307浏览 1评论 20喜欢

Python

记scikit-learn贝叶斯文本分类的坑(弄了个笨办法解决了,有其它办法的小哥儿请指点)

记scikit-learn贝叶斯文本分类的坑(弄了个笨办法解决了,有其它办法的小哥儿请指点)
基本步骤: 1、训练素材分类: 我是参考官方的目录结构: 每个目录中放对应的文本,一个txt文件一篇对应的文章:就像下面这样 需要注意的是所有素材比例请保持在相同的比例(根据训练结果酌情调整、不可比例过于悬殊、容易造成过拟合(通俗点就是大部分文章都给你分到素材最多的那个类别去...

2017-08-23 18:49 7816浏览 1评论 22喜欢

Python

利用新接口抓取微信公众号的所有文章

利用新接口抓取微信公众号的所有文章
各位小伙儿伴儿,一定深受过采集微信公众号之苦吧!特别是!!!!!!公共号历史信息!!!这丫除了通过中间代理采集APP、还真没什么招数能拿到数据啊! 直到············ 前天晚上微信官方发布了一个文章:点我 大致意思是说以后发布文章的时候可以直接插入其它公众号的文章了。...

2017-06-07 9:44 70392浏览 2评论 148喜欢