投稿    登录
  博主录制的Python3爬虫视频教程已发布!详情请戳Python3爬虫视频教程!希望大家支持!非常感谢!

标签:Python

Python

小白爬虫第四弹之爬虫快跑(多进程+多线程)

小白爬虫第四弹之爬虫快跑(多进程+多线程)
PS:使用多线程时好像在目录切换的问题上存在问题,可以给线程加个锁试试 Hello 大家好!我又来了。 你是不是发现下载图片速度特别慢、难以忍受啊!对于这种问题 一般解决办法就是多进程了!一个进程速度慢!我就用十个进程,相当于十个人一起干。速度就会快很多啦!(为什么不说多线程?...

哎哟卧槽 10个月前 (11-20) 19188浏览 39评论 106喜欢

Python

Python爬虫进阶六之多进程的用法

Python爬虫进阶六之多进程的用法
前言 在上一节中介绍了thread多线程库。python中的多线程其实并不是真正的多线程,并不能做到充分利用多核CPU资源。 如果想要充分利用,在python中大部分情况需要使用多进程,那么这个包就叫做 multiprocessing。 借助它,可以轻松完成从单进程到并发执行的转...

崔庆才 11个月前 (11-13) 17639浏览 9评论 48喜欢

Python

Python爬虫进阶五之多线程的用法

Python爬虫进阶五之多线程的用法
前言 我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理。 首先声明一点! 多线程和多进程是不一样的!一个是 thread 库,一个是 multiprocessing 库。而多线程 thread 在 Py...

崔庆才 11个月前 (11-03) 17049浏览 7评论 26喜欢

Python

Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺

Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新 其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个。 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经不可能了。那本节就带大家抓取匿名旺旺号熟悉一下Selenium吧。 2016/7...

崔庆才 1年前 (2016-06-29) 29911浏览 26评论 70喜欢

Python

Python爬虫进阶四之PySpider的用法

Python爬虫进阶四之PySpider的用法
审时度势 PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能,使用非常人性化。 本篇内容通过跟我做一个好玩的 PySpider 项目,来理解 PySpider 的运行流程。 招兵买马 具体...

崔庆才 2年前 (2016-03-25) 78663浏览 130评论 207喜欢

Python

Python爬虫利器六之PyQuery的用法

Python爬虫利器六之PyQuery的用法
前言 你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有了一些前端基础了解选择器却与另外一些奇怪的选择器语法混淆了呢? 嗯,那么,前端大...

崔庆才 2年前 (2016-03-23) 32368浏览 11评论 66喜欢

Python

Python爬虫利器三之Xpath语法与lxml库的用法

Python爬虫利器三之Xpath语法与lxml库的用法
前言 前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话,可以尝试下 Xpath。 参考来源 ...

崔庆才 2年前 (2016-03-23) 79985浏览 6评论 226喜欢

Python

Python爬虫利器五之Selenium的用法

Python爬虫利器五之Selenium的用法
前言 在上一节我们学习了 PhantomJS 的基本用法,归根结底它是一个没有界面的浏览器,而且运行的是 JavaScript 脚本,然而这就能写爬虫了吗?这又和Python有什么关系?说好的Python爬虫呢?库都学完了你给我看这个?客官别急,接下来我们介绍的这个工具,统统解决...

崔庆才 2年前 (2016-03-22) 107558浏览 46评论 312喜欢