了解如何使用Tesseract和OpenCV通过Raspberry Pi相机从PDF等图像中提取文本
在本教程中,我将向您展示如何使用光学字符识别通过Raspberry Pi相机和Raspberry Pi从图像中提取文本。 Pi相机将捕获图像,并使用OpenCV和Tesseract从图像中提取文本。
https://embed.notionlytics.com/wt/ZXlKd1lXZGxTV1FpT2lJMllqY3hNamRsWXpCbU5qazBaR0kzT0RNMU9EUXlOMlkxT1dReE5UazVNU0lzSW5kdmNtdHpjR0ZqWlZSeVlXTnJaWEpKWkNJNklsZHNTR2hsVEZSUFdXeHpaVmRhUW1ZNU1YQmxJbjA9
光学字符识别(OCR)是指从图像(打印或手写)或PDF格式的文档中电子提取文本的过程。此过程也称为文本识别。
Tesseract是最初由惠普在1985年至1994年之间开发的工具,在1996年进行了一些更改,以移植到Windows,并在1998年进行了一些C ++化。Tesseract在2005年被HP开源,并且Google一直在进一步开发 自2006年以来。
Tesseract识别并读取图像中显示的文本。它可以读取所有图像类型-png,jpeg,gif,tiff,bmp等。它还广泛用于处理扫描文档中的所有内容。
Tesseract具有Unicode(UTF-8)支持,并且可以立即识别100多种语言。为了将Tesseract集成到C ++或Python代码中,我们必须使用Tesseract的API。
首先,您需要通过键入以下命令来确保您的Raspberry Pi是最新的:
让我们仔细检查一下新安装的软件包上的版本。
要检查是否已安装OpenCV,请尝试通过键入以下命令导入OpenCV:
将此Python代码复制并保存到扩展名为.py的文本文件中。
现在,使用命令python filename.py运行此代码。