投稿    登录
欢迎来访~

小白进阶之Scrapy第一篇

Python 哎哟卧槽 361766浏览 0评论

扫码或搜索:进击的Coder

发送

即可立即永久解锁本站全部文章

下面我们开始还剩下的一些内容获取:小说章节 和章节内容

首先我们在item中新定义一些需要获取内容的字段:

scrapy16

代码不解释了哦!(懒癌来了,写不下去了)

继续编写Spider文件:

scrapy18

请注意我图中画红框的的地方,这个地方返回item是不能用return的哦!用了就结束了,程序就不会继续下去了,得用yield(你知道就行,这玩意儿说起来麻烦。)

第五十八行: num这个变量的作用是  因为Scrapy是异步的方式运作,你采集到的章节顺序都是混乱的,需要给它有序的序列,我们按照这个排序就能得到正确的章节顺序啦

请注意在顶部导入定义的第二个item类!

下面我们来写存储这部分spider的Pipeline:

数据表:

 

Sql.py:

Scrapy13

Scrapy14

不解释了哦!

下面是Pipeline:

scrapy21

有小伙伴注意,这儿比上面一个Pipeline少一个判断,因为我把判断移动到Spider中去了,这样就可以减少一次Request,减轻服务器压力。

改变后的Spider长这样:

Scrapy16

别忘了在spider中导入Sql哦!ヾ(。 ̄□ ̄)ツ゜゜゜

 

到此收工!!!!

至于小说图片,因为Scrapy的图片下载管道,是自动以md5命名,而且感觉不爽··· 后面单独写一个异步下载的脚本···

https://github.com/thsheep/dingdian

转载请注明:静觅 » 小白进阶之Scrapy第一篇

更多文章、联系博主、技术交流、商务合作

扫码或搜索:进击的Coder

进击的Coder

微信公众号 扫一扫关注

喜欢 (344)or分享 (0)

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址