投稿    登录
  《Python3网络爬虫开发实战》赠书活动正在进行中!详情请戳赠书活动!欢迎参与!非常感谢!

Python爬虫实战四之抓取淘宝MM照片

Python 崔庆才 312282浏览 599评论

福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢?

最新动态

更新时间:2015/8/2

最近好多读者反映代码已经不能用了,原因是淘宝索引页的MM链接改了。网站改版了,URL的索引已经和之前的不一样了,之前可以直接跳转到每个MM的个性域名,现在中间加了一个跳转页,本以为可以通过这个页面然后跳转到原来的个性域名,而经过一番折腾发现,这个跳转页中的内容是JS动态生成的,所以不能用Urllib库来直接抓取了,本篇就只提供学习思路,代码不能继续用了。

之后博主会利用其它方法来尝试解决,如果解决,第一时间更新!谢谢大家!

更新时间:2016/3/26

如上问题已解决,利用 PhantomJS的动态解析即可完成。因为 PySpider 同样支持 PhantomJS,所以我直接利用了 PySpider 来完成,解决方案如下

解决方案

另外如果不想使用框架,可以直接利用 Selenium + PhantomJS 来解析,同样方便,解决方案可以参考

动态解析解决方案

本篇目标

1.抓取淘宝MM的姓名,头像,年龄

2.抓取每一个MM的资料简介以及写真图片

3.把每一个MM的写真图片按照文件夹保存到本地

4.熟悉文件保存的过程

1.URL的格式

在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1,问号前面是基地址,后面的参数page是代表第几页,可以随意更换地址。点击开之后,会发现有一些淘宝MM的简介,并附有超链接链接到个人详情页面。

我们需要抓取本页面的头像地址,MM姓名,MM年龄,MM居住地,以及MM的个人详情页面地址。

2.抓取简要信息

相信大家经过上几次的实战,对抓取和提取页面的地址已经非常熟悉了,这里没有什么难度了,我们首先抓取本页面的MM详情页面地址,姓名,年龄等等的信息打印出来,直接贴代码如下

运行结果如下

QQ截图20150220234132

 2.文件写入简介

在这里,我们有写入图片和写入文本两种方式

1)写入图片

2)写入文本

3)创建新目录

3.代码完善

主要的知识点已经在前面都涉及到了,如果大家前面的章节都已经看了,完成这个爬虫不在话下,具体的详情在此不再赘述,直接帖代码啦。

以上两个文件就是所有的代码内容,运行一下试试看,那叫一个酸爽啊

QQ截图20150221020543

 

看看文件夹里面有什么变化

QQ截图20150221020709

 

QQ截图20150221021032

不知不觉,海量的MM图片已经进入了你的电脑,还不快快去试试看!!

代码均为本人所敲,写的不好,大神勿喷,写来方便自己,同时分享给大家参考!希望大家支持!

转载请注明:静觅 » Python爬虫实战四之抓取淘宝MM照片

喜欢 (731)or分享 (0)

我的个人微信公众号,联系我请直接在公众号留言即可~

扫码或搜索:进击的Coder

进击的Coder

微信公众号 扫一扫关注

想结交更多的朋友吗?

来进击的Coder瞧瞧吧

进击的Coder

QQ群号 99350970 立即加入

进击的Coder灌水太多?

这里是纯粹的技术领地

激进的Coder

QQ群号 627725766 立即加入

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(599)个小伙伴在吐槽
  1. brand name sildenafil for sale [url=http://viagrauga.com/]viagrauga.com[/url] my husband tried sildenafil
  2. [url=http://onlinewwwmen.com/]why does the military buy viagra[/url] low cost viagra best places to buy viagra
    bbrkeync2019-01-16 14:39 (4小时前)回复
  3. Here are several of the sites we advise for our visitors
    Sexy chat2019-01-16 14:13 (5小时前)回复
  4. [url=http://cialisle.com/]cialis online[/url]
    cialisle.com2019-01-16 10:15 (9小时前)回复
  5. http://newehealthyman.ru/
    Gerardanymn2019-01-16 10:01 (9小时前)回复
  6. Every as soon as inside a while we choose blogs that we read. Listed below are the newest sites that we decide on
    gucci bags2019-01-16 09:29 (9小时前)回复
  7. we prefer to honor numerous other online web pages around the net, even though they arent linked to us, by linking to them. Under are some webpages really worth checking out
    Tory Burch2019-01-16 09:14 (10小时前)回复
  8. edmedicinea.com
    HowardChara2019-01-16 03:39 (15小时前)回复
  9. tadalafil warnings http://cialisle.com/ generic cialis
    cialis2019-01-15 23:23 (20小时前)回复
  10. do health insurance cover viagra http://viaqraonlinegen.com buy generic viagra, is taking sildenafil illegal
    ZentMoorospoirl2019-01-15 22:16 (21小时前)回复
1 38 39 40