如题,想问一下开发组有没有做过 Tesseract 的相关测试。免费的 Tesseract 和 ABBYY 相比效果会差很多吗?
目前,我还在比较各个 ocr 工具,我之前都是在虚拟机里安装 ABBYY 和 Acrobat 之类的。今天发现了几个命令行的 ocr 工具,pdfsandwich 和 ocrmypdf,这两个工具都是使用 Google 的 Tesseract ocr 引擎。所以想请教下 MarginNote 的开发人员,有没有测试过 Tesseract ,效果如何。
如题,想问一下开发组有没有做过 Tesseract 的相关测试。免费的 Tesseract 和 ABBYY 相比效果会差很多吗?
目前,我还在比较各个 ocr 工具,我之前都是在虚拟机里安装 ABBYY 和 Acrobat 之类的。今天发现了几个命令行的 ocr 工具,pdfsandwich 和 ocrmypdf,这两个工具都是使用 Google 的 Tesseract ocr 引擎。所以想请教下 MarginNote 的开发人员,有没有测试过 Tesseract ,效果如何。
单纯ocr和pdfocr是不一样的概念.单纯ocr已经有百度接口,准确率比abbyy好多了,你说的这个命令行工具对于pdfocr是不保留pdf结构的
类似的开源的pdf ocr工具还有很多,GitHub 上搜一下一大把,它们可以给PDF加文本层,只不过用了 Tesseract 的引擎而已。
我的目的并不是把PDF变成纯文本。我想表达的是,如果免费的 Tesseract 引擎效果能做到90分,优势绝对比昂贵的 ABBYY1 的95分(存疑,仅打比方)显著。即使官方不选择这个引擎,也可以有别的用户以插件的形式集成进来。
希望开发组有空可以分享下对 Tesseract 引擎的见解。
(帖子被作者删除,如无标记将在 24 小时后自动删除)
恕我直言,我发现这个帖子下不乏不懂装懂的人,不懂你可以先搜索资料。完全没有看懂别人的意图,就妄加评论。这个帖子的初衷是开发者犹豫 Mac 不提供 ocr 的功能是考虑到 ABBYY 授权太贵。而且这个论坛很多用户都是使用 PC ABBYY 进行预处理,我想使用正版的人不多吧。所以上述这些启发了我,想找找 ABBYY 的替代,交流下 Tesseract 的实际使用效果。
退一步即使商用收费,是不是费用就比 ABBYY 高?而且,我上面说了,可以通过插件形式实现类似 pdfsandwich 的功能,或者直接把 pdfsanwich 当作 ABBYY 的替代,何来收费的问题?
再者, 你稍微搜索下就可以找到(这个license什么含义请自行搜索):
我鼓励言论自由,但是这个论坛作为一个学习软件爱好者分享的平台,用户却连最基本的搜索都不做就发言,这样与贴吧无异。
困扰倒不至于,我反感的是对自己不了解的东西还妄下结论,不是针对你,你留意看上面几个人的评论。你有耐心我们可以讨论下:
您好Neon,非常感谢您分享的Tesseract开源工具,共享的精神和互助的学习氛围对Marginnote社区非常重要,我会研究一下的。
另,也期待其他小伙伴对于该工具的使用体验和测评。
Regards.
不好意思,我确实在回答之前不是很熟悉,只是大致看了一些关于这个在中文社区的攻略,那里面提到的内容确实只是调用接口进行ocr,让我误以为该攻略仅仅输出.我也对这个工具的使用效果很感兴趣,会一直跟进这个消息的.
虽然 MarginNote 提供了不错的ocr工具,但是我认为对 PDF 预先 ocr 处理还是非常有意义的。
ocr 的用处不仅限于通过复制只言片语来做笔记,对于职场或持续学习的专业人士来说,我们是没有那么多时间完成整本书籍的阅读,书籍在更多的场景下是用于检索,让我们快速获取尽可能多的高质量相关信息,来完成特定的输出工作。预处理过的高质量 Searchable PDF 比较符合这一场景,当然如果有高质量的正版PDF电子书我也是有很高的付费意愿的。
我理想中的学习产品,是一款能完成从输入到处理,再到输出的闭环学习平台。MarginNote 目前作为一个输入,处理,输出(脑图)的工具,还有很大潜力可以挖掘。
我似乎发现了一个端对端的调用这个工具的ocr结局方案
整体框架采用这位大佬贡献的python脚本
然后要设置几个参数以及调用中文词库,这些操作在命令行上被这样调用
def ocr_core(file):
pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'
tessdata_dir_config = r'"./" --psm 7 --oem 3' # psm different segmentation mode
# --tessdata-dir "./" '--oem 3 --psm 7'
pdf = pytesseract.image_to_pdf_or_hocr(file,
extension='pdf',
lang='chi_sim',
config=tessdata_dir_config)
return pdf
选择了传统ocr+lstm的方法,对英文和中文进行
模式采用的是逐行
初步感觉
1有些地方没有被识别为可ocr文本,估计和模式有关
2识别的文字大概长这样 “是 毒气 或 冶 气 引起 了”
3就算是这个样子,也能够达成我们mac党需要的转化为双层可搜索pdf功能了,有懂js或许可以帮忙开发个插件来转化pdf.我目前调通了python的版本,有空就开源了