[Python3网络爬虫开发实战] 1.3.4-tesserocr的安装

在爬虫过程中，难免会遇到各种各样的验证码，而大多数验证码还是图形验证码，这时候我们可以直接用 OCR 来识别。

1. OCR

OCR，即 Optical Character Recognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说，它们都是一些不规则的字符，这些字符确实是由字符稍加扭曲变换得到的内容。

例如，对于如图 1-22 和图 1-23 所示的验证码，我们可以使用 OCR 技术来将其转化为电子文本，然后爬虫将识别结果提交给服务器，便可以达到自动识别验证码的过程。

图 1-22 验证码

图 1-23 验证码

tesserocr 是 Python 的一个 OCR 识别库，但其实是对 tesseract 做的一层 Python API 封装，所以它的核心是 tesseract。因此，在安装 tesserocr 之前，我们需要先安装 tesseract。

2. 相关链接

tesserocr GitHub：https://github.com/sirfz/tesserocr
tesserocr PyPI：https://pypi.python.org/pypi/tesserocr
tesseract 下载地址：http://digi.bib.uni-mannheim.de/tesseract
tesseract GitHub：https://github.com/tesseract-ocr/tesseract
tesseract 语言包：https://github.com/tesseract-ocr/tessdata
tesseract 文档：https://github.com/tesseract-ocr/tesseract/wiki/Documentation

3. Windows 下的安装

在 Windows 下，首先需要下载 tesseract，它为 tesserocr 提供了支持。

进入下载页面，可以看到有各种.exe 文件的下载列表，这里可以选择下载 3.0 版本。图 1-24 所示为 3.05 版本。

图 1-24 下载页面

其中文件名中带有 dev 的为开发版本，不带 dev 的为稳定版本，可以选择下载不带 dev 的版本，例如可以选择下载 tesseract-ocr-setup-3.05.01.exe。

下载完成后双击，此时会出现如图 1-25 所示的页面。

图 1-25 安装页面

此时可以勾选 Additional language data(download)选项来安装 OCR 识别支持的语言包，这样 OCR 便可以识别多国语言。然后一路点击 Next 按钮即可。

接下来，再安装 tesserocr 即可，此时直接使用 pip 安装：

1	pip3 install tesserocr pillow

4. Linux 下的安装

对于 Linux 来说，不同系统已经有了不同的发行包了，它可能叫作 tesseract-ocr 或者 tesseract，直接用对应的命令安装即可。

Ubuntu、Debian 和 Deepin

在 Ubuntu、Debian 和 Deepin 系统下，安装命令如下：

1	sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

CentOS、Red Hat

在 CentOS 和 Red Hat 系统下，安装命令如下：

1	yum install -y tesseract

在不同发行版本运行如上命令，即可完成 tesseract 的安装。

安装完成后，便可以调用tesseract命令了。

接着，我们查看一下其支持的语言：

1	tesseract --list-langs

运行结果示例：

List of available languages (3):
eng
osd
equ

结果显示它只支持几种语言，如果想要安装多国语言，还需要安装语言包，官方叫作 tessdata（其下载链接为：https://github.com/tesseract-ocr/tessdata）。

利用 Git 命令将其下载下来并迁移到相关目录即可，不同版本的迁移命令如下所示。

在 Ubuntu、Debian 和 Deepin 系统下的迁移命令如下：

1 2	git clone https://github.com/tesseract-ocr/tessdata.git sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata

在 CentOS 和 Red Hat 系统下的迁移命令如下：

1 2	git clone https://github.com/tesseract-ocr/tessdata.git sudo mv tessdata/* /usr/share/tesseract/tessdata

这样就可以将下载下来的语言包全部安装了。

这时我们重新运行列出所有语言的命令：

1	tesseract --list-langs

结果如下：

List of available languages (107):
afr
amh
ara
asm
aze
aze_cyrl
bel
ben
bod
bos
bul
cat
ceb
ces
chi_sim
chi_tra
...

可以发现，这里列出的语言就多了很多，比如 chi_sim 就代表简体中文，这就证明语言包安装成功了。

接下来再安装 tesserocr 即可，这里直接使用 pip 安装：

1	pip3 install tesserocr pillow

5. Mac 下的安装

在 Mac 下，我们首先使用 Homebrew 安装 ImageMagick 和 tesseract 库：

1 2	brew install imagemagick brew install tesseract --all-languages

接下来再安装 tesserocr 即可：

1	pip3 install tesserocr pillow

这样我们便完成了 tesserocr 的安装。

6. 验证安装

接下来，我们可以使用 tesseract 和 tesserocr 来分别进行测试。

下面我们以如图 1-26 所示的图片为样例进行测试。

图 1-26 测试样例

该图片的链接为https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png，可以直接保存或下载。

首先用命令行进行测试，将图片下载下来并保存为 image.png，然后用tesseract命令测试：

1	tesseract image.png result -l eng && cat result.txt

运行结果如下：

1 2	Tesseract Open Source OCR Engine v3.05.01 with Leptonica Python3WebSpider

这里我们调用了tesseract命令，其中第一个参数为图片名称，第二个参数result为结果保存的目标文件名称，\-l指定使用的语言包，在此使用英文（eng）。然后，再用cat命令将结果输出。

运行结果便是图片的识别结果：Python3WebSpider。可以看到，这时已经成功将图片文字转为电子文本了。

然后还可以利用 Python 代码来测试，这里就需要借助于 tesserocr 库了，测试代码如下：

import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))

我们首先利用Image读取了图片文件，然后调用了tesserocr的image_to_text()方法，再将其识别结果输出。

运行结果如下：

1	Python3WebSpider

另外，我们还可以直接调用file_to_text()方法，这可以达到同样的效果：

1 2	import tesserocr print(tesserocr.file_to_text('image.png'))

运行结果：

1	Python3WebSpider

如果成功输出结果，则证明 tesseract 和 tesserocr 都已经安装成功。