tesseract命令行ocr工具初步测试

tianyilt · 2020 年6 月 1 日 19:22

相关帖子

解决mac端没有ocrpro:mac端mn用abbyy替换源pdf攻略领域最佳实践分享

问题描述和ipad的ios系统的marginnote不一样,由于macos上没有对整个pdf进行ocr的功能,因此对于扫描的图片pdf 非常不友好,不能选择文本,只能用框摘录.而像划重点,标题链接,全书搜索这样的功能更是完全无法完成,因此引发了若干人血书．其他有同样需求和心得的帖子有: 官方相关表态有因此,在等到新版本解决之前,特别需要一个方法来将图片pdf 转化为 ocr后的pdf ，从而在macos上也有和ipad一样的阅读体验．这个方法有以下要求：能够在转化书籍的同时保留原书的摘要与脑图结构。修改后pdf样子要与原先保持一致，就如同ipad上ocrpro后的pdf一样。名词约定: 图片pdf:所有文字都不可以选择,每页只是一张图片.如果你强行想要选择文本,就会这样↓ [image] ocr后的pdf:所有文字都可以选择,因而支持划重点,标题链接,全书搜索这样的功能. [image] 环境准备系统环境： macos10.15（目前演示实验环境是运行在vmware中） windows10 作为转化pdf的工作环境涉及软件： ABBYY_15.0 用于转化pdf，是ios端ocr的技术提供方，因此只要把pdf经过abbyy处理之后就可以有一致的体验 FreePic2Pdf 用于将原先的图片pdf的目录导入ocr后的目录结构操作步骤步骤千万条备份第一条操作不规范自己两行泪一切开始之前把相关的脑图包括文档一起备份 [image] abbyy出于教学和科研目的使用方法实不相瞒,我出于教学和科研目直接通过百度网盘搜索工具找到了相关资源.但是根据社会主义核心价值观,请大家自行查找资源,并建议支持正版安装完后可以在路径 ABBYY_15.0.112.2130_Green\ABBYY FineReader\ 中找到 FineReaderOCR.exe 界面如下 [image-20200507214019935] ABBYY ocr方法点击file->new task,然后点击Open in OCR Editor之后选择目标pdf [image-20200507214404151] 之后就等待他ocr结束 ![image-202005072147554…

https://bbs.marginnote.com.cn/t/topic/2821/6?u=tianyilt

背景知识

该帖子意在前人基础上进一步探索pdf ocr的方法,来解决mac版本marginnote没有ocr_pro的问题.具体后果我写在了这里.无法像ios一样享受ocrpro的主要原因是abbyy在mac端收费太贵.因此需要一个开源的免费的ocr工具来解决这一痛点.
这里有很多可供选择方案,今天测试一下tesseract.这是一个google的开源的ocr工具,可以支持将图片转化为可搜索的双层pdf.资料丰富,易于开发.

ocr后的效果

测试方法

主要调用工具的思路

pdf 转图像
调用tesseract来将每个图像转可搜索pdf
有一个攻略](How to OCR with Tesseract in Python with Pytesseract and OpenCV?)可以有助于用python完成这件事情
最后合并所有的pdf
导出原有pdf的目录并导入到新的pdf中

tesseract调用参数如下

def ocr_core(file):
    pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'
    tessdata_dir_config = r'--psm 7 --oem 3'  # psm different segmentation mode
    # --tessdata-dir "./" '--oem 3 --psm 7'
    pdf = pytesseract.image_to_pdf_or_hocr(file,
                                           extension='pdf',
                                           lang='chi_sim',
                                           config=tessdata_dir_config)
    return pdf

选择了传统ocr+lstm的方法,对英文和中文进行
模式采用的是逐行
初步感觉
1有些地方没有被识别为可ocr文本,估计和模式有关
2识别的文字大概长这样 “是毒气或冶气引起了” 不容乐观,不过我们主要问题不是ocr质量,而是pdf可不可以被搜索,ocr质量不高可以用百度接口解决,没法框文字这真的不能忍.但是这样出现大量空格会对做标题链接很有影响,这也是需要研究的地方.
3就算是这个样子,也能够达成我们mac党需要的转化为双层可搜索pdf功能了,有懂js或许可以帮忙开发个插件来转化pdf.我目前在调通了python的版本,还差pdf的合并与目录问题(目前方法是用到外部工具,但是工具都是win10系统下的,不够通用,而且不端对端),有空就改一改完善一下丢github.
4目前程序没有io操作的情况下差不多一页5s,和abbyy相比还是比较慢的

jkryanchou · 2021 年4 月 11 日 14:53

abbyy 那个方案不错的，Mac 和 Win 上亲测都不错。可以尝试一下

Support-Team · 2021 年4 月 19 日 09:59

Hello

非常感谢您的鼓励和支持，希望我们能陪伴Marginnote走向更美好的未来。

Kind Regards,
MarginNote-Leah
Support Team