2022 年最新 Python3 网络爬虫教程
大家好,我是崔庆才,由于爬虫技术不断迭代升级,一些旧的教程已经过时、案例已经过期,最前沿的爬虫技术比如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等技术层出不穷,我最近新出了一套最新最全面的 Python3 网络爬虫系列教程。
博主自荐:截止 2022 年,可以将最前沿最全面的爬虫技术都涵盖的教程,如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等,市面上目前就这一套了。
最新教程对旧的爬虫技术内容进行了全面更新,搭建了全新的案例平台进行全面讲解,保证案例稳定有效不过期。
教程请移步:
如下为原文。
福利啊福利,本次为大家带来的项目是抓取淘宝 MM 照片并保存起来,大家有没有很激动呢?
最新动态
更新时间:2015/8/2 最近好多读者反映代码已经不能用了,原因是淘宝索引页的 MM 链接改了。网站改版了,URL 的索引已经和之前的不一样了,之前可以直接跳转到每个 MM 的个性域名,现在中间加了一个跳转页,本以为可以通过这个页面然后跳转到原来的个性域名,而经过一番折腾发现,这个跳转页中的内容是 JS 动态生成的,所以不能用 Urllib 库来直接抓取了,本篇就只提供学习思路,代码不能继续用了。 之后博主会利用其它方法来尝试解决,如果解决,第一时间更新!谢谢大家!
更新时间:2016/3/26 如上问题已解决,利用 PhantomJS 的动态解析即可完成。因为 PySpider 同样支持 PhantomJS,所以我直接利用了 PySpider 来完成,解决方案如下 解决方案 另外如果不想使用框架,可以直接利用 Selenium + PhantomJS 来解析,同样方便,解决方案可以参考 动态解析解决方案
本篇目标
1.抓取淘宝 MM 的姓名,头像,年龄 2.抓取每一个 MM 的资料简介以及写真图片 3.把每一个 MM 的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程
1.URL 的格式
在这里我们用到的 URL 是 http://mm.taobao.com/json/request_top_list.htm?page=1,问号前面是基地址,后面的参数 page 是代表第几页,可以随意更换地址。点击开之后,会发现有一些淘宝 MM 的简介,并附有超链接链接到个人详情页面。 我们需要抓取本页面的头像地址,MM 姓名,MM 年龄,MM 居住地,以及 MM 的个人详情页面地址。
2.抓取简要信息
相信大家经过上几次的实战,对抓取和提取页面的地址已经非常熟悉了,这里没有什么难度了,我们首先抓取本页面的 MM 详情页面地址,姓名,年龄等等的信息打印出来,直接贴代码如下
1 |
__author__ = 'CQC' |
2.文件写入简介
在这里,我们有写入图片和写入文本两种方式
1)写入图片
1 |
#传入图片地址,文件名,保存单张图片 |
2)写入文本
1 |
def saveBrief(self,content,name): |
3)创建新目录
1 |
#创建新目录 |
3.代码完善
主要的知识点已经在前面都涉及到了,如果大家前面的章节都已经看了,完成这个爬虫不在话下,具体的详情在此不再赘述,直接帖代码啦。
1 |
spider.py |
1 |
__author__ = 'CQC' |
1 |
tool.py |
1 |
__author__ = 'CQC' |
以上两个文件就是所有的代码内容,运行一下试试看,那叫一个酸爽啊 看看文件夹里面有什么变化 不知不觉,海量的 MM 图片已经进入了你的电脑,还不快快去试试看!! 代码均为本人所敲,写的不好,大神勿喷,写来方便自己,同时分享给大家参考!希望大家支持!