投稿    登录
  博主录制的Python3爬虫视频教程已发布!详情请戳Python3爬虫视频教程!希望大家支持!非常感谢!

免登录新浪微博爬虫系列之第二篇 获取关注用户数据,实现递增爬取

Python 四毛 1464浏览 2评论

大家好,我是四毛。

    在系列1  中,主要分析了微博信息与评论信息的抓取,今天主要讲一下如何获取关注用户的数据信息,以使得爬虫可以增量爬取。

    OK,开始学(zhuang)习(bi)。

说明:本文针对的是有一些爬虫基础的同学,所以看不太懂的同学先补一下基础。

大家如果有问题交流的话,欢迎在下面进行评论,或者可以加我QQ:549411552(加的话麻烦注明来自静觅),欢迎大佬拍砖指错,大家共同进步。

 

       抓包

    在系列一中的网址1的请求返回的内容主要是关于博主信息的,在其中可以发现fans_scheme、follow_scheme这两个字段,从字面上就可以知道这是关注博主的人以及博主关注的人的url,对其进行抓包,截图如下:

        前方高能:

但是这里只返回了200个博主关注的人的信息,原以为是没有登录导致的,后来试着登录了一下,发现依然还是200,所以对于数据完整性要求比较高的就不要用这个接口了

在上图的返回值中,包含了当前请求网址的页码数,关注列表中用户的信息。通过这些信息,我们就可以实现爬虫的递增爬取了。还有一个注意的地方就是需要将follow_url 中的recomm替换掉才是真正我们需要的关注页的网址。

好了,今天写的很少,在写的过程中也觉得没什么好写的了,很尴尬。

代码地址: WEIBO

 

转载请注明:静觅 » 免登录新浪微博爬虫系列之第二篇 获取关注用户数据,实现递增爬取

喜欢 (4)or分享 (0)

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的

想结交更多的朋友吗?

来进击的Coder瞧瞧吧

进击的Coder

QQ群号 99350970 立即加入

进击的Coder灌水太多?

这里是纯粹的技术领地

激进的Coder

QQ群号 627725766 立即加入

想找人聊天解闷?想要学习干货?

微信公众号进击的Coder为你打造

进击的Coder

微信公众号 扫一扫关注