投稿    登录
  博主录制的Python3爬虫视频教程已发布!详情请戳Python3爬虫视频教程!希望大家支持!非常感谢!

哎哟卧槽的文章

Python

记scikit-learn贝叶斯文本分类的坑(弄了个笨办法解决了,有其它办法的小哥儿请指点)

记scikit-learn贝叶斯文本分类的坑(弄了个笨办法解决了,有其它办法的小哥儿请指点)
基本步骤: 1、训练素材分类: 我是参考官方的目录结构: 每个目录中放对应的文本,一个txt文件一篇对应的文章:就像下面这样 需要注意的是所有素材比例请保持在相同的比例(根据训练结果酌情调整、不可比例过于悬殊、容易造成过拟合(通俗点就是大部分文章都给你分到素材最多的那个类别去...

1个月前 (08-23) 715浏览 1评论 8喜欢

Python

利用新接口抓取微信公众号的所有文章

利用新接口抓取微信公众号的所有文章
各位小伙儿伴儿,一定深受过采集微信公众号之苦吧!特别是!!!!!!公共号历史信息!!!这丫除了通过中间代理采集APP、还真没什么招数能拿到数据啊! 直到············ 前天晚上微信官方发布了一个文章:点我 大致意思是说以后发布文章的时候可以直接插入其它公众号的文章了。...

4个月前 (06-07) 10519浏览 11评论 64喜欢

Python

小白进阶之Scrapy第四篇(图片下载管道篇)

小白进阶之Scrapy第四篇(图片下载管道篇)
PS: 爬虫不进入img_url函数的小伙伴儿 请尝试将将代码复制到你新建的py文件中。 2017/8/30 更新解决了网站防盗链导致下载图片失败的问题 这几天一直有小伙伴而给我吐槽说,由于妹子图站长把www.mzitu.com/all这个地址取消了。导致原来的那个采集爬虫不能...

5个月前 (04-23) 8984浏览 21评论 29喜欢

Python

小白学爬虫系列教程

小白学爬虫系列教程
听大才哥说好像我的文章挺难找的,这整理一下。 基础知识篇: 这玩意儿我没写,各位参考大才哥的: Python爬虫学习系列教程 Python3爬虫学习视频教程 小白系列教程 小白爬虫第一弹之抓取妹子图 小白爬虫第二弹之健壮的小爬虫 小白爬虫第三弹之去重去重 小白爬虫第四弹之爬虫快...

6个月前 (04-11) 27496浏览 5评论 1212喜欢

Python

Scrapy小技巧-MySQL存储

Scrapy小技巧-MySQL存储
这两天上班接手,别人留下来的爬虫发现一个很好玩的 SQL脚本拼接。 只要你的Scrapy Field字段名字和 数据库字段的名字 一样。那么恭喜你你就可以拷贝这段SQL拼接脚本。进行MySQL入库处理。 具体拼接代码如下: ...

6个月前 (03-19) 4703浏览 6评论 40喜欢

技术杂谈

Scrapy分布式的前篇–让redis和MongoDB安全点

Scrapy分布式的前篇–让redis和MongoDB安全点
各位小伙伴 大家好啊!年假结束了··· 也该开始继续我的装逼之旅了。 年前博文的结尾说了 还有一个基于Scrapy的分布式版本、 今天这博文就先给大家做些前期工作,其实吧、最主要的是防止你的服务器因为这篇博文被轮········· 博文开始之前 我们先来看篇文章: http://...

8个月前 (02-03) 3963浏览 5评论 13喜欢

Python

小白进阶之Scrapy第二篇(登录篇)

小白进阶之Scrapy第二篇(登录篇)
  其实拿这个网站当教程刚开始我是拒绝、换其他网站吧,又没什么动力···· 然后就··········· 上一篇Scrapy带大家玩了 Spider 今天带带大家玩的东西有两点、第一CrawlSpider、第二Scrapy登录。 目标站点:www.haoduofuli...

8个月前 (01-22) 19912浏览 22评论 32喜欢

Python

小白进阶之Scrapy第一篇

小白进阶之Scrapy第一篇
这博文写得我懒癌犯了,最后的那个章节内容排序,我没有实验是否是正确的,不过这只是个教大家用Scrapy的教程,正确与否并不重要···  如果不正确,记得留言;等我懒癌过了,我再改改······ 还有其它的问题也是一样··· ,把问题留言下; 等我懒癌过了·· 我改回来!嗯!是等我...

10个月前 (12-07) 87451浏览 115评论 118喜欢