想请教下 ocr 的效果问题

Neon · 2020 年5 月 12 日 02:31

如题，想问一下开发组有没有做过 Tesseract 的相关测试。免费的 Tesseract 和 ABBYY 相比效果会差很多吗？

目前，我还在比较各个 ocr 工具，我之前都是在虚拟机里安装 ABBYY 和 Acrobat 之类的。今天发现了几个命令行的 ocr 工具，pdfsandwich 和 ocrmypdf，这两个工具都是使用 Google 的 Tesseract ocr 引擎。所以想请教下 MarginNote 的开发人员，有没有测试过 Tesseract ，效果如何。

tianyilt · 2020 年5 月 13 日 11:46

单纯ocr和pdfocr是不一样的概念.单纯ocr已经有百度接口,准确率比abbyy好多了,你说的这个命令行工具对于pdfocr是不保留pdf结构的

Neon · 2020 年5 月 13 日 23:38

pdfsandwich 项目网址

OCRmyPDF 项目网址

它们就是给pdf添加文本层，只不过用了 Tesseract 引擎而已，不知道你从何得出这个结论？

Neon · 2020 年5 月 13 日 23:39

类似的开源的pdf ocr工具还有很多，GitHub 上搜一下一大把，它们可以给PDF加文本层，只不过用了 Tesseract 的引擎而已。
我的目的并不是把PDF变成纯文本。我想表达的是，如果免费的 Tesseract 引擎效果能做到90分，优势绝对比昂贵的 ABBYY1 的95分（存疑，仅打比方）显著。即使官方不选择这个引擎，也可以有别的用户以插件的形式集成进来。

Neon · 2020 年5 月 15 日 10:46

希望开发组有空可以分享下对 Tesseract 引擎的见解。

Rainy_Blue · 2020 年5 月 15 日 23:53

（帖子被作者删除，如无标记将在 24 小时后自动删除）

Neon · 2020 年5 月 16 日 00:50

恕我直言，我发现这个帖子下不乏不懂装懂的人，不懂你可以先搜索资料。完全没有看懂别人的意图，就妄加评论。这个帖子的初衷是开发者犹豫 Mac 不提供 ocr 的功能是考虑到 ABBYY 授权太贵。而且这个论坛很多用户都是使用 PC ABBYY 进行预处理，我想使用正版的人不多吧。所以上述这些启发了我，想找找 ABBYY 的替代，交流下 Tesseract 的实际使用效果。

退一步即使商用收费，是不是费用就比 ABBYY 高？而且，我上面说了，可以通过插件形式实现类似 pdfsandwich 的功能，或者直接把 pdfsanwich 当作 ABBYY 的替代，何来收费的问题？

再者，你稍微搜索下就可以找到（这个license什么含义请自行搜索）：

我鼓励言论自由，但是这个论坛作为一个学习软件爱好者分享的平台，用户却连最基本的搜索都不做就发言，这样与贴吧无异。

Neon · 2020 年5 月 16 日 08:45

困扰倒不至于，我反感的是对自己不了解的东西还妄下结论，不是针对你，你留意看上面几个人的评论。你有耐心我们可以讨论下：

“类似我这样的意见” 是指 Tesseract ? 我以此为关键词，并没有在论坛搜索到。
“开源项目不等于商用免费”？这个和我的帖子有什么关联吗？你想表达什么呢，即使 Tesseract 开源，MarginNote 引入也要收费？
“好用我相信min会加上”，如果他全知全能，还开论坛让我们用户反馈什么呢？
加入新功能就一定要收费？macOS 的版本是买断制，后期加入功能就一定要收费，什么逻辑？即使 iPadOS 使用了 ABBYY 的商业 api，也不是必然要收费，当然他们出于成本考量，让有需求的用户额外订阅付费也无可厚非。
这个论坛上很多人使用 Mac，都面临着 ocr 的问题，有比较多的用户都是推荐 ABBYY Finereader，这里是探讨 Tesseract 对比 ABBYY的效果。即使官方不引入，也可以给觉得 ABBYY 昂贵，或者不想使用盗版的用户提供一个思路。如果有志愿者，完全可以为 MarginNote 开发一个 Tesseract 的适配（以某种形式，我不是程序员），类似我上面提及的 ocrmypdf，pdfsandwich。即使没有相关的适配，也可以直接使用 pdfsandwich 作为 ABBYY 的替代。
至于“上纲上线”，这个帖子下连续几个人都是最起码的搜索工作都没有做，直接得出言之凿凿的结论。

image751×205 56.6 KB

image691×45 24.9 KB

说不懂装懂，都算客气了。这种错误的结论难道不会对后续参与讨论的用户造成误导吗？我用词犀利一点，只是想让以后来交流的朋友不会被误导而已。

Edward_Support-Team · 2020 年5 月 18 日 04:26

您好Neon，非常感谢您分享的Tesseract开源工具，共享的精神和互助的学习氛围对Marginnote社区非常重要，我会研究一下的。

另，也期待其他小伙伴对于该工具的使用体验和测评。

Regards.

tianyilt · 2020 年5 月 19 日 20:32

不好意思,我确实在回答之前不是很熟悉,只是大致看了一些关于这个在中文社区的攻略,那里面提到的内容确实只是调用接口进行ocr,让我误以为该攻略仅仅输出.我也对这个工具的使用效果很感兴趣,会一直跟进这个消息的.

Neon · 2020 年5 月 21 日 04:03

虽然 MarginNote 提供了不错的ocr工具，但是我认为对 PDF 预先 ocr 处理还是非常有意义的。
ocr 的用处不仅限于通过复制只言片语来做笔记，对于职场或持续学习的专业人士来说，我们是没有那么多时间完成整本书籍的阅读，书籍在更多的场景下是用于检索，让我们快速获取尽可能多的高质量相关信息，来完成特定的输出工作。预处理过的高质量 Searchable PDF 比较符合这一场景，当然如果有高质量的正版PDF电子书我也是有很高的付费意愿的。
我理想中的学习产品，是一款能完成从输入到处理，再到输出的闭环学习平台。MarginNote 目前作为一个输入，处理，输出（脑图）的工具，还有很大潜力可以挖掘。

tianyilt · 2020 年6 月 1 日 15:21

我似乎发现了一个端对端的调用这个工具的ocr结局方案
整体框架采用这位大佬贡献的python脚本
然后要设置几个参数以及调用中文词库,这些操作在命令行上被这样调用

tianyilt · 2020 年6 月 1 日 19:01

测试了一下,测试的参数如下

def ocr_core(file):
    pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'
    tessdata_dir_config = r'"./" --psm 7 --oem 3'  # psm different segmentation mode
    # --tessdata-dir "./" '--oem 3 --psm 7'
    pdf = pytesseract.image_to_pdf_or_hocr(file,
                                           extension='pdf',
                                           lang='chi_sim',
                                           config=tessdata_dir_config)
    return pdf

选择了传统ocr+lstm的方法,对英文和中文进行
模式采用的是逐行
初步感觉
1有些地方没有被识别为可ocr文本,估计和模式有关
2识别的文字大概长这样 “是毒气或冶气引起了”
3就算是这个样子,也能够达成我们mac党需要的转化为双层可搜索pdf功能了,有懂js或许可以帮忙开发个插件来转化pdf.我目前调通了python的版本,有空就开源了