投稿    登录
  您好,欢迎光临崔庆才的博客,最近博主在忙复习考试,可能评论和友链不能及时回应,请谅解,至17.1.12解除!

Python爬虫学习系列教程

Python 崔庆才 392575浏览 98评论

大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流。

Python版本:2.7

一、爬虫入门

1. Python爬虫入门一之综述

2. Python爬虫入门二之爬虫基础了解

3. Python爬虫入门三之Urllib库的基本使用

4. Python爬虫入门四之Urllib库的高级用法

5. Python爬虫入门五之URLError异常处理

6. Python爬虫入门六之Cookie的使用

7. Python爬虫入门七之正则表达式

二、爬虫实战

1. Python爬虫实战一之爬取糗事百科段子

2. Python爬虫实战二之爬取百度贴吧帖子

3. Python爬虫实战三之实现山东大学无线网络掉线自动重连

4. Python爬虫实战四之抓取淘宝MM照片

5. Python爬虫实战五之模拟登录淘宝并获取所有订单

6. Python爬虫实战六之抓取爱问知识人问题并保存至数据库

7. Python爬虫实战七之计算大学本学期绩点

  1. Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺

三、爬虫利器

1. Python爬虫利器一之Requests库的用法

2. Python爬虫利器二之Beautiful Soup的用法

3. Python爬虫利器三之Xpath语法与lxml库的用法

4. Python爬虫利器四之PhantomJS的用法

5. Python爬虫利器五之Selenium的用法

6. Python爬虫利器六之PyQuery的用法

四、爬虫进阶

1. Python爬虫进阶一之爬虫框架概述

2. Python爬虫进阶二之PySpider框架安装配置

3. Python爬虫进阶三之爬虫框架Scrapy安装配置

4. Python爬虫进阶四之PySpider的用法

5. Python爬虫进阶五之多线程的用法

6. Python爬虫进阶六之多进程的用法

  1. Python爬虫进阶七之设置ADSL拨号服务器代理

 

目前暂时是这些文章,随着学习的进行,会不断更新哒,敬请期待~

希望对大家有所帮助,谢谢!

转载请注明:静觅 » Python爬虫学习系列教程

喜欢 (1518)or分享 (0)

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的

  1. UnicodeDecodeError: ‘utf8’ codec can’t decode byte 0xc0 in position 205924: invalid start byte
    博主这怎么解决?

    • 看下文件打开方式,是不是该用’wb’的地方用成了’w’,还有就是写的时候用的’wb’,那读的时候也要用’rb’,而不能用默认的,

  2. 您好,这个是chrome F12得到的,已经得到cookie可以登录这个URL,仅看到一张图片,无法查看源代码
    ,请问如何爬并存储到本地 这个页面上的这张图片?我试过解GZIP,直接打印出来也是乱码,urlretrieve也没有办法直接下载到图片,请问要怎么做???

    Request URL:http://my.sues.edu.cn/attachmentDownload.portal?notUseCache=true&attachmentId=a50ec7fd-61cc-11e6-ae1a-bd04f2da331a
    Request Method:GET
    Status Code:200 OK (from cache)
    Remote Address:202.121.126.181:80
    Response Headers
    Content-Disposition:attachment; filename=这个保密吧.jpg
    Content-Encoding:gzip
    Content-Language:en-US
    Content-Type:image/*
    Date:Tue, 24 May 2016 13:25:20 GMT
    Last-Modified:Wed, 23 Sep 2015 08:25:27 GMT
    Server:IBM_HTTP_Server
    Vary:Accept-Encoding,User-Agent
    Request Headers
    Provisional headers are shown
    Accept:image/webp,image/*,*/*;q=0.8
    Referer:http://my.sues.edu.cn/index.portal?.pn=p1001
    User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36

  3. 您好,这个是chrome F12得到的,已经得到cookie可以登录这个URL,仅看到一张图片,无法查看源代码
    ,请问如何爬并存储到本地 这个页面上的这张图片?我试过解GZIP,直接打印出来也是乱码,urlretrieve也没有办法直接下载到图片,请问要怎么做???

    Request URL:http://my.sues.edu.cn/attachmentDownload.portal?notUseCache=true&attachmentId=a50ec7fd-61cc-11e5-ae1a-bd04f2da331a
    Request Method:GET
    Status Code:200 OK (from cache)
    Remote Address:202.121.126.181:80
    Response Headers
    Content-Disposition:attachment; filename=这个保密吧.jpg
    Content-Encoding:gzip
    Content-Language:en-US
    Content-Type:image/*
    Date:Tue, 24 May 2016 13:25:20 GMT
    Last-Modified:Wed, 23 Sep 2015 08:25:27 GMT
    Server:IBM_HTTP_Server
    Vary:Accept-Encoding,User-Agent
    Request Headers
    Provisional headers are shown
    Accept:image/webp,image/*,*/*;q=0.8
    Referer:http://my.sues.edu.cn/index.portal?.pn=p1001
    User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36

  4. 希望博主多写一些scrapy框架的实战操作,例如分页爬取,瀑布流爬取,多级目录爬取等等。很多还是不得要领啊。