投稿    登录
  《Python3网络爬虫开发实战》赠书活动正在进行中!详情请戳赠书活动!欢迎参与!非常感谢!

哎哟卧槽的文章

Python

小白进阶之Scrapy第六篇Scrapy-Redis详解

小白进阶之Scrapy第六篇Scrapy-Redis详解
Scrapy-Redis 详解 通常我们在一个站站点进行采集的时候,如果是小站的话 我们使用scrapy本身就可以满足。 但是如果在面对一些比较大型的站点的时候,单个scrapy就显得力不从心了。 要是我们能够多个Scrapy一起采集该多好啊 人多力量大。 很遗憾Scrapy官...

6个月前 (06-06) 74669浏览 246评论 19喜欢

Linux

小白学爬虫-批量部署Splash负载集群

小白学爬虫-批量部署Splash负载集群
部署公司生产环境的Splash集群无奈节点太多 差点被搞死··  还好我有运维神器Ansible,一次编撰终生可用啊!而且这玩意儿 等幂特性 扩容回滚 So Easy!! 闲话少说开搞! 安装Ansible: 看官方文档去:http://www.ansible.com.cn/i...

1年前 (2017-12-02) 1673浏览 0评论 13喜欢

Python

小白学爬虫-在无GUI的CentOS上使用Selenium+Chrome

小白学爬虫-在无GUI的CentOS上使用Selenium+Chrome
各位小伙伴儿的采集日常是不是被JavaScript的各种点击事件折腾的欲仙欲死啊?好不容易找到个Selenium+Chrome可以解决问题! 但是另一个▄█▀█●的事实摆在面前,服务器都特么没有GUI啊·· 好吧!咱们要知难而上!决不能被这个点小困难打倒······· 然而摆在...

1年前 (2017-11-30) 5333浏览 3评论 25喜欢

Python

小白学爬虫-设置Selenium+Chrome代理

小白学爬虫-设置Selenium+Chrome代理
  微博登录限制了错误次数···加上Cookie大批账号被封需要从Cookie池中 剔除被封的账号··· 需要使用代理··· 无赖百度了大半天都是特么的啥玩意儿???结果换成了 Google手到擒来 分分钟解决(那么问题来了?百度除了卖假药还会干啥?) Seleniu...

1年前 (2017-11-18) 7139浏览 1评论 27喜欢

未分类

小白进阶第七篇(Splash负载均衡)

小白进阶第七篇(Splash负载均衡)
对于Scrapy处理Ajax 处理方式当然是同家兄弟Splash比较靠谱! 但是Splash有个很坑爹的毛病就是负载承受相对较小·· 一不留神就GG了·········· 然后也就没有然后了~~! 所以准备给Splash做一个负载均衡;后端放一大堆的Splash这样总不会GG了吧...

1年前 (2017-09-26) 2880浏览 1评论 18喜欢

Python

记scikit-learn贝叶斯文本分类的坑(弄了个笨办法解决了,有其它办法的小哥儿请指点)

记scikit-learn贝叶斯文本分类的坑(弄了个笨办法解决了,有其它办法的小哥儿请指点)
基本步骤: 1、训练素材分类: 我是参考官方的目录结构: 每个目录中放对应的文本,一个txt文件一篇对应的文章:就像下面这样 需要注意的是所有素材比例请保持在相同的比例(根据训练结果酌情调整、不可比例过于悬殊、容易造成过拟合(通俗点就是大部分文章都给你分到素材最多的那个类别去...

1年前 (2017-08-23) 3957浏览 2评论 19喜欢

Python

利用新接口抓取微信公众号的所有文章

利用新接口抓取微信公众号的所有文章
各位小伙儿伴儿,一定深受过采集微信公众号之苦吧!特别是!!!!!!公共号历史信息!!!这丫除了通过中间代理采集APP、还真没什么招数能拿到数据啊! 直到············ 前天晚上微信官方发布了一个文章:点我 大致意思是说以后发布文章的时候可以直接插入其它公众号的文章了。...

2年前 (2017-06-07) 34298浏览 68评论 125喜欢

Python

小白进阶之Scrapy第四篇(图片下载管道篇)

小白进阶之Scrapy第四篇(图片下载管道篇)
PS: 爬虫不进入img_url函数的小伙伴儿 请尝试将将代码复制到你新建的py文件中。 2017/8/30 更新解决了网站防盗链导致下载图片失败的问题 这几天一直有小伙伴而给我吐槽说,由于妹子图站长把www.mzitu.com/all这个地址取消了。导致原来的那个采集爬虫不能...

2年前 (2017-04-23) 28234浏览 21评论 50喜欢