投稿    登录
  您好,欢迎光临崔庆才的博客,祝大家新年快乐,鸡年大吉!

 分类:Python

Python

小白爬虫第二弹之健壮的小爬虫

小白爬虫第二弹之健壮的小爬虫
我又来装逼了!上次教大家写了一个下载www.mzitu.com全站图片的小爬虫练手、不知道大家消化得怎么样? 大家在使用的时候会发现,跑着跑着 就断掉了!报错了啊!丢失连接之类的。幸幸苦苦的抓了半天又得从头来,心累啊! 这就是网站的反爬虫在起作用了,一个IP访问次数过于频繁就先...

哎哟卧槽 5个月前 (10-30) 12645浏览 45评论 128喜欢

Python

小白爬虫第一弹之抓取妹子图

小白爬虫第一弹之抓取妹子图
PS:更改了一个新手比较难理解的坑(切换目录的问题),大陆之外的小伙伴儿 需要翻墙,mzitu.com对大陆之外好像不可访问。倒数第四个代码块儿是 没有函数的脚本写法,看函数有困难的小伙伴儿,可以先看看这个。   这是一篇完全给新手写的爬虫教程、也是我第一次写博文···...

哎哟卧槽 5个月前 (10-28) 46774浏览 103评论 1136喜欢

Python

Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺

Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新 其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个。 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经不可能了。那本节就带大家抓取匿名旺旺号熟悉一下Selenium吧。 2016/7...

崔庆才 9个月前 (06-29) 18686浏览 22评论 52喜欢

Python

Python爬虫进阶四之PySpider的用法

Python爬虫进阶四之PySpider的用法
审时度势 PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能,使用非常人性化。 本篇内容通过跟我做一个好玩的 PySpider 项目,来理解 PySpider 的运行流程。 招兵买马 具体...

崔庆才 1年前 (2016-03-25) 54209浏览 117评论 173喜欢

Python

Python爬虫利器六之PyQuery的用法

Python爬虫利器六之PyQuery的用法
前言 你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有了一些前端基础了解选择器却与另外一些奇怪的选择器语法混淆了呢? 嗯,那么,前端大...

崔庆才 1年前 (2016-03-23) 19401浏览 10评论 48喜欢

Python

Python爬虫利器三之Xpath语法与lxml库的用法

Python爬虫利器三之Xpath语法与lxml库的用法
前言 前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话,可以尝试下 Xpath。 参考来源 ...

崔庆才 1年前 (2016-03-23) 38021浏览 5评论 100喜欢

Python

Python爬虫利器五之Selenium的用法

Python爬虫利器五之Selenium的用法
前言 在上一节我们学习了 PhantomJS 的基本用法,归根结底它是一个没有界面的浏览器,而且运行的是 JavaScript 脚本,然而这就能写爬虫了吗?这又和Python有什么关系?说好的Python爬虫呢?库都学完了你给我看这个?客官别急,接下来我们介绍的这个工具,统统解决...

崔庆才 1年前 (2016-03-22) 55469浏览 37评论 164喜欢

Python

Python爬虫利器四之PhantomJS的用法

Python爬虫利器四之PhantomJS的用法
前言 大家有没有发现之前我们写的爬虫都有一个共性,就是只能爬取单纯的html代码,如果页面是JS渲染的该怎么办呢?如果我们单纯去分析一个个后台的请求,手动去摸索JS渲染的到的一些结果,那简直没天理了。所以,我们需要有一些好用的工具来帮助我们像浏览器一样渲染JS处理的页面。 其中有...

崔庆才 1年前 (2016-03-21) 36068浏览 23评论 73喜欢