投稿    登录
欢迎来访~

[Python3网络爬虫开发实战] 1.3.4-tesserocr的安装

Python 崔庆才 30981浏览 8评论

在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。

1. OCR

OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。

例如,对于如图1-22和图1-23所示的验证码,我们可以使用OCR技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验证码的过程。

图1-22 验证码

图1-23 验证码

tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。

2. 相关链接

3. Windows下的安装

在Windows下,首先需要下载tesseract,它为tesserocr提供了支持。

进入下载页面,可以看到有各种.exe文件的下载列表,这里可以选择下载3.0版本。图1-24所示为3.05版本。

图1-24 下载页面

其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.01.exe。

下载完成后双击,此时会出现如图1-25所示的页面。

图1-25 安装页面

此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。

接下来,再安装tesserocr即可,此时直接使用pip安装:

4. Linux下的安装

对于Linux来说,不同系统已经有了不同的发行包了,它可能叫作tesseract-ocr或者tesseract,直接用对应的命令安装即可。

Ubuntu、Debian和Deepin

在Ubuntu、Debian和Deepin系统下,安装命令如下:

CentOS、Red Hat

在CentOS和Red Hat系统下,安装命令如下:

在不同发行版本运行如上命令,即可完成tesseract的安装。

安装完成后,便可以调用tesseract命令了。

接着,我们查看一下其支持的语言:

运行结果示例:

结果显示它只支持几种语言,如果想要安装多国语言,还需要安装语言包,官方叫作tessdata(其下载链接为:https://github.com/tesseract-ocr/tessdata)。

利用Git命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。

在Ubuntu、Debian和Deepin系统下的迁移命令如下:

在CentOS和Red Hat系统下的迁移命令如下:

这样就可以将下载下来的语言包全部安装了。

这时我们重新运行列出所有语言的命令:

结果如下:

可以发现,这里列出的语言就多了很多,比如chi_sim就代表简体中文,这就证明语言包安装成功了。

接下来再安装tesserocr即可,这里直接使用pip安装:

5. Mac下的安装

在Mac下,我们首先使用Homebrew安装ImageMagick和tesseract库:

接下来再安装tesserocr即可:

这样我们便完成了tesserocr的安装。

6. 验证安装

接下来,我们可以使用tesseract和tesserocr来分别进行测试。

下面我们以如图1-26所示的图片为样例进行测试。

图1-26 测试样例

该图片的链接为https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png,可以直接保存或下载。

首先用命令行进行测试,将图片下载下来并保存为image.png,然后用tesseract命令测试:

运行结果如下:

这里我们调用了tesseract命令,其中第一个参数为图片名称,第二个参数result为结果保存的目标文件名称,-l指定使用的语言包,在此使用英文(eng)。然后,再用cat命令将结果输出。

运行结果便是图片的识别结果:Python3WebSpider。可以看到,这时已经成功将图片文字转为电子文本了。

然后还可以利用Python代码来测试,这里就需要借助于tesserocr库了,测试代码如下:

我们首先利用Image读取了图片文件,然后调用了tesserocrimage_to_text()方法,再将其识别结果输出。

运行结果如下:

另外,我们还可以直接调用file_to_text()方法,这可以达到同样的效果:

运行结果:

如果成功输出结果,则证明tesseract和tesserocr都已经安装成功。

转载请注明:静觅 » [Python3网络爬虫开发实战] 1.3.4-tesserocr的安装

喜欢 (20)or分享 (0)

我的个人微信公众号,联系我请直接在公众号留言即可~

扫码或搜索:进击的Coder

进击的Coder

微信公众号 扫一扫关注

想结交更多的朋友吗?

来进击的Coder瞧瞧吧

进击的Coder

QQ群号 99350970 立即加入

进击的Coder灌水太多?

这里是纯粹的技术领地

激进的Coder

QQ群号 627725766 立即加入

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(8)个小伙伴在吐槽
  1. 直接使用pytesseract库 代码如下 from PIL import Image import pytesseract #2.使用Image模块下的Open()函数打开图片 image = Image.open('image.png',mode='r') #3.识别图片文字 code= pytesseract.image_to_string(image) print(code)
    miles2019-07-05 16:12 回复
  2. 你好,大佬
    miles2019-07-05 16:08 回复
  3. 遇到一些错误,已经解决,大家可以参照,这里面有常见问题 https://blog.csdn.net/qq_35793285/article/details/81120440
    jsonlu2019-04-15 17:44 回复
    • 补充下可能还会遇到 Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory. Failed loading language 'eng' 请参考这个博客 https://blog.csdn.net/kiramario/article/details/53781369
      jsonlu2019-04-15 17:59 回复
  4. 已经成功安装了 Requirement already satisfied: tesserocr in /usr/local/lib/python3.7/site-packages (2.4.0) Requirement already satisfied: pillow in /usr/local/lib/python3.7/site-packages (6.0.0) 但是还是报错 import tesserocr ImportError: No module named tesserocr
    牛牛2019-04-15 15:33 回复
    • import locale locale.setlocale(locale.LC_ALL, 'C') 在前面添加了这两行就可以运行了
      牛牛2019-04-15 17:41 回复
  5. 感谢老师的付出!
  6. 您好!再看您的书时,tesseract已经,在anaconda3的运行环境里找不到tesserocr,而pip安装则报错,
    one2019-03-12 15:18 回复