0%

[Python3网络爬虫开发实战] 8-验证码的识别

当今时代,许多网站为了反爬虫采用了各种各样的措施,其中之一便是使用验证码,随着技术的发展,验证码的花样也越来越多,最初可能是几个数字组合的简单的图形验证码,后来加入了英文字母和混淆曲线使得验证码更加复杂,有的网站还可能看到中文字符的验证码,使得识别愈发困难。 而后来 12306 验证码的出现又开辟了验证码的新纪元,用过 12306 的肯定多少为它的验证码头疼过,它需要我们去识别文字,然后再点击文字描述相符的图片,只有完全正确才可以验证通过。现在这种交互式验证码越来越多,如极验滑动验证码需要滑动拼合滑块才可以完成验证,点触的验证码需要完全点击正确的结果才可以完成验证,另外还有一些滑动宫格验证码,计算题验证码等等五花八门。 验证码变得越来越复杂,爬虫的工作也变得愈发艰难,有时候我们必须通过验证码的验证才可以访问页面,所以本章专门来针对验证码的识别做一下统一的讲解。 本章涉及的验证码有普通图形验证码、极验滑动验证码、点触验证码、微博宫格验证码,识别的方式和思路各有不同,了解了这几个验证码的识别方式之后,我们可以举一反三,用类似的方法识别其他类型的验证码。