投稿    登录
  博主录制的Python3爬虫视频教程已发布!详情请戳Python3爬虫视频教程!希望大家支持!非常感谢!

哎哟卧槽的文章

未分类

小白学爬虫-设置Selenium+Chrome代理

小白学爬虫-设置Selenium+Chrome代理
  微博登录限制了错误次数···加上Cookie大批账号被封需要从Cookie池中 剔除被封的账号··· 需要使用代理··· 无赖百度了大半天都是特么的啥玩意儿???结果换成了 Google手到擒来 分分钟解决(那么问题来了?百度除了卖假药还会干啥?) Seleniu...

5天前 358浏览 0评论 7喜欢

未分类

小白进阶第七篇(Splash负载均衡)

小白进阶第七篇(Splash负载均衡)
对于Scrapy处理Ajax 处理方式当然是同家兄弟Splash比较靠谱! 但是Splash有个很坑爹的毛病就是负载承受相对较小·· 一不留神就GG了·········· 然后也就没有然后了~~! 所以准备给Splash做一个负载均衡;后端放一大堆的Splash这样总不会GG了吧...

2个月前 (09-26) 598浏览 0评论 12喜欢

Python

记scikit-learn贝叶斯文本分类的坑(弄了个笨办法解决了,有其它办法的小哥儿请指点)

记scikit-learn贝叶斯文本分类的坑(弄了个笨办法解决了,有其它办法的小哥儿请指点)
基本步骤: 1、训练素材分类: 我是参考官方的目录结构: 每个目录中放对应的文本,一个txt文件一篇对应的文章:就像下面这样 需要注意的是所有素材比例请保持在相同的比例(根据训练结果酌情调整、不可比例过于悬殊、容易造成过拟合(通俗点就是大部分文章都给你分到素材最多的那个类别去...

3个月前 (08-23) 1377浏览 1评论 16喜欢

Python

利用新接口抓取微信公众号的所有文章

利用新接口抓取微信公众号的所有文章
各位小伙儿伴儿,一定深受过采集微信公众号之苦吧!特别是!!!!!!公共号历史信息!!!这丫除了通过中间代理采集APP、还真没什么招数能拿到数据啊! 直到············ 前天晚上微信官方发布了一个文章:点我 大致意思是说以后发布文章的时候可以直接插入其它公众号的文章了。...

6个月前 (06-07) 15071浏览 11评论 83喜欢

Python

小白进阶之Scrapy第四篇(图片下载管道篇)

小白进阶之Scrapy第四篇(图片下载管道篇)
PS: 爬虫不进入img_url函数的小伙伴儿 请尝试将将代码复制到你新建的py文件中。 2017/8/30 更新解决了网站防盗链导致下载图片失败的问题 这几天一直有小伙伴而给我吐槽说,由于妹子图站长把www.mzitu.com/all这个地址取消了。导致原来的那个采集爬虫不能...

7个月前 (04-23) 12165浏览 23评论 34喜欢

Python

小白学爬虫系列教程

小白学爬虫系列教程
听大才哥说好像我的文章挺难找的,这整理一下。 基础知识篇: 这玩意儿我没写,各位参考大才哥的: Python爬虫学习系列教程 Python3爬虫学习视频教程 小白系列教程 小白爬虫第一弹之抓取妹子图 小白爬虫第二弹之健壮的小爬虫 小白爬虫第三弹之去重去重 小白爬虫第四弹之爬虫快...

8个月前 (04-11) 34107浏览 5评论 1221喜欢

Python

Scrapy小技巧-MySQL存储

Scrapy小技巧-MySQL存储
这两天上班接手,别人留下来的爬虫发现一个很好玩的 SQL脚本拼接。 只要你的Scrapy Field字段名字和 数据库字段的名字 一样。那么恭喜你你就可以拷贝这段SQL拼接脚本。进行MySQL入库处理。 具体拼接代码如下: ...

8个月前 (03-19) 5537浏览 6评论 42喜欢