在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。
1. OCR
OCR,即 Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。
例如,对于如图 1-22 和图 1-23 所示的验证码,我们可以使用 OCR 技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验证码的过程。
图 1-22 验证码
图 1-23 验证码
tesserocr 是 Python 的一个 OCR 识别库,但其实是对 tesseract 做的一层 Python API 封装,所以它的核心是 tesseract。因此,在安装 tesserocr 之前,我们需要先安装 tesseract。
2. 相关链接
- tesserocr GitHub:https://github.com/sirfz/tesserocr
- tesserocr PyPI:https://pypi.python.org/pypi/tesserocr
- tesseract 下载地址:http://digi.bib.uni-mannheim.de/tesseract
- tesseract GitHub:https://github.com/tesseract-ocr/tesseract
- tesseract 语言包:https://github.com/tesseract-ocr/tessdata
- tesseract 文档:https://github.com/tesseract-ocr/tesseract/wiki/Documentation
3. Windows 下的安装
在 Windows 下,首先需要下载 tesseract,它为 tesserocr 提供了支持。
进入下载页面,可以看到有各种.exe 文件的下载列表,这里可以选择下载 3.0 版本。图 1-24 所示为 3.05 版本。
图 1-24 下载页面
其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本,可以选择下载不带 dev 的版本,例如可以选择下载 tesseract-ocr-setup-3.05.01.exe。
下载完成后双击,此时会出现如图 1-25 所示的页面。
图 1-25 安装页面
此时可以勾选 Additional language data(download)选项来安装 OCR 识别支持的语言包,这样 OCR 便可以识别多国语言。然后一路点击 Next 按钮即可。
接下来,再安装 tesserocr 即可,此时直接使用 pip 安装:
1 |
pip3 install tesserocr pillow |
4. Linux 下的安装
对于 Linux 来说,不同系统已经有了不同的发行包了,它可能叫作 tesseract-ocr 或者 tesseract,直接用对应的命令安装即可。
Ubuntu、Debian 和 Deepin
在 Ubuntu、Debian 和 Deepin 系统下,安装命令如下:
1 |
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev |
CentOS、Red Hat
在 CentOS 和 Red Hat 系统下,安装命令如下:
1 |
yum install -y tesseract |
在不同发行版本运行如上命令,即可完成 tesseract 的安装。
安装完成后,便可以调用tesseract
命令了。
接着,我们查看一下其支持的语言:
1 |
tesseract --list-langs |
运行结果示例:
1 |
List of available languages (3): |
结果显示它只支持几种语言,如果想要安装多国语言,还需要安装语言包,官方叫作 tessdata(其下载链接为:https://github.com/tesseract-ocr/tessdata)。
利用 Git 命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。
在 Ubuntu、Debian 和 Deepin 系统下的迁移命令如下:
1 |
git clone https://github.com/tesseract-ocr/tessdata.git |
在 CentOS 和 Red Hat 系统下的迁移命令如下:
1 |
git clone https://github.com/tesseract-ocr/tessdata.git |
这样就可以将下载下来的语言包全部安装了。
这时我们重新运行列出所有语言的命令:
1 |
tesseract --list-langs |
结果如下:
1 |
List of available languages (107): |
可以发现,这里列出的语言就多了很多,比如 chi_sim 就代表简体中文,这就证明语言包安装成功了。
接下来再安装 tesserocr 即可,这里直接使用 pip 安装:
1 |
pip3 install tesserocr pillow |
5. Mac 下的安装
在 Mac 下,我们首先使用 Homebrew 安装 ImageMagick 和 tesseract 库:
1 |
brew install imagemagick |
接下来再安装 tesserocr 即可:
1 |
pip3 install tesserocr pillow |
这样我们便完成了 tesserocr 的安装。
6. 验证安装
接下来,我们可以使用 tesseract 和 tesserocr 来分别进行测试。
下面我们以如图 1-26 所示的图片为样例进行测试。
图 1-26 测试样例
该图片的链接为https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png,可以直接保存或下载。
首先用命令行进行测试,将图片下载下来并保存为 image.png,然后用tesseract
命令测试:
1 |
tesseract image.png result -l eng && cat result.txt |
运行结果如下:
1 |
Tesseract Open Source OCR Engine v3.05.01 with Leptonica |
这里我们调用了tesseract
命令,其中第一个参数为图片名称,第二个参数result
为结果保存的目标文件名称,\-l
指定使用的语言包,在此使用英文(eng
)。然后,再用cat
命令将结果输出。
运行结果便是图片的识别结果:Python3WebSpider
。可以看到,这时已经成功将图片文字转为电子文本了。
然后还可以利用 Python 代码来测试,这里就需要借助于 tesserocr 库了,测试代码如下:
1 |
import tesserocr |
我们首先利用Image
读取了图片文件,然后调用了tesserocr
的image_to_text()
方法,再将其识别结果输出。
运行结果如下:
1 |
Python3WebSpider |
另外,我们还可以直接调用file_to_text()
方法,这可以达到同样的效果:
1 |
import tesserocr |
运行结果:
1 |
Python3WebSpider |
如果成功输出结果,则证明 tesseract 和 tesserocr 都已经安装成功。