解决mac端没有ocrpro:mac端mn用abbyy替换源pdf攻略

问题描述

和ipad的ios系统的marginnote不一样,由于macos上没有对整个pdf进行ocr的功能,因此对于扫描的 图片pdf 非常不友好,不能选择文本,只能用框摘录.而像划重点,标题链接,全书搜索这样的功能更是完全无法完成,因此引发了若干人血书
其他有同样需求和心得的帖子有:

官方相关表态有
https://bbs.marginnote.com.cn/t/topic/2821/6?u=tianyilt

因此,在等到新版本解决之前,特别需要一个方法来将 图片pdf 转化为 ocr后的pdf ,从而在macos上也有和ipad一样的阅读体验.

这个方法有以下要求:

  • 能够在转化书籍的同时保留原书的摘要与脑图结构。
  • 修改后pdf样子要与原先保持一致,就如同ipad上ocrpro后的pdf一样。

名词约定:

图片pdf:所有文字都不可以选择,每页只是一张图片.如果你强行想要选择文本,就会这样↓
image

ocr后的pdf:所有文字都可以选择,因而支持划重点,标题链接,全书搜索这样的功能.

image

环境准备

系统环境:

  • macos10.15(目前演示实验环境是运行在vmware中)
  • windows10 作为转化pdf的工作环境

涉及软件:

  • ABBYY_15.0 用于转化pdf,是ios端ocr的技术提供方,因此只要把pdf经过abbyy处理之后就可以有一致的体验
  • FreePic2Pdf 用于将原先的图片pdf的目录导入ocr后的目录结构

操作步骤

步骤千万条 备份第一条

操作不规范 自己两行泪

一切开始之前把相关的脑图包括文档一起备份

image

abbyy出于教学和科研目的使用方法

实不相瞒,我出于教学和科研目直接通过百度网盘搜索工具找到了相关资源.但是根据社会主义核心价值观,请大家自行查找资源,并建议支持正版

安装完后可以在路径 ABBYY_15.0.112.2130_Green\ABBYY FineReader\ 中找到 FineReaderOCR.exe

界面如下

ABBYY ocr方法

点击file->new task,然后点击Open in OCR Editor之后选择目标pdf

image-20200507214404151

之后就等待他ocr结束

![image-20200507214755485]

完成之后点击另存为Searchable PDF Document,Searchable PDF Document就是我们想要的ocr后的pdf

image-20200507215136393

abbyy保存以及相关参数设置

保存的时候可以进行参数设置,这里我

  • 在Searchable PDF settings里面选择Text under the page image.这意味我们看到的内容是和原版pdf一模一样的(最上面是图像层) 而我们搜索 摘录选择的文本是在文本层,位于图像层下方.

  • 把质量选择为自定义,在里面选择质量不损失

  • use MRC compression 这一个选择整个勾掉 压缩会影响画质

image-20200507215443387

截取自群内大佬的图↓

image

image

在质量不损失之后就可以有非常清晰的结果

更新:经过探索,其实这里参数可以这样设置,结果会更好

用FreePic2Pdf来保障目录(并演示车祸现场)

目录结构千万不能改变!!!如果转化后的书籍的目录发生了改变,通过重新连接后的笔记会发生如下喜闻乐见的事情

请少侠自己重新拼思维导图吧.原先的目录结构是这样的↓

image-20200507212605907

这件事情发生的原因是当初做笔记摘录的时候选择了自动插入image-20200507212218167 来使得新卡片在脑图中的父节点就是目录.在文档目录结构改变后,这些脑图卡片的父节点就全部跟着目录一起灰飞烟灭了,因为父节点是由目录来决定的.

在讲清楚了让转化后的pdf目录和原先一致的必要性之后,现在开始回顾刚刚被ocr好的pdf

我们发现基本字体颜色没有改变,能够选择文本.但是没有目录.

我们在开始一切操作之前,先把原版pdf与ocr好的pdf进行备份

我们在开始一切操作之前,先把原版pdf与ocr好的pdf进行备份

我们在开始一切操作之前,先把原版pdf与ocr好的pdf进行备份

三遍完毕,开始进入目录操作:

  • 从原来pdf取书签
  • 将取出的书签导入到ocr后的pdf

这个时候轮到freepic2pdf出场了,点击右下角更改PDF

image-20200507220127302

首先点击取书签,选择原版的pdf,存放接口文件的文件夹随意,但是请把路径复制一遍.最后点击开始

image-20200507220738127

image-20200507220850632

点击挂书签,选择ocr后的pdf,填写接口路径,最后开始
image-20200507221307041

如果失败,请关闭所有pdf查看器

最终,打开ocr pdf查看效果,比较圆满

在marginnote删除原来的pdf

先把ocr的pdf放到marginnote相应目录下

之后删除原来的pdf

image-20200507221850645

恢复连接选择新的ocr完毕的pdf

image-20200507221959206

image-20200507222002417

image-20200507222044406

把文档关联了,最终成功

未来展望

目前操作还是有些繁琐,未来希望能将pdf处理流程变得:

  • 自动化:封装成一个脚本
  • 批量化:能对多个pdf同时运行
  • 目前这个操作是在windows上完成的,需要探索一条在mac上编辑的路径

希望官方能够在ipad端的使用abbyy进行pdf ocr之后,在icloud上建立一个ocr后的pdf副本来供mac端使用

此外freepic2pdf的给pdf批量添加目录也是很方便的事情,大致工作流如下:

  • 导出pdf目录
  • 在淘宝或京东商品目录找到书籍目录
  • 用几个常用正则表达式对目录文本进行批量替换修改,使得目录文本满足freepic2pdf的目录语法
  • 导入目录
    具体操作最近会总结分享的
13 个赞

在这里给出完整的导出设置以及一个自动化方案,先把图贴上来,具体描述后期更新
打开image
新建一个任务
这是建好之后的样子



分为四步:

  1. 任务运行周期,这里就选择运行一次 立刻开始
  2. 选择读取的文件
  3. ocr识别pdf
  4. 保存pdf

最关键的是保存,列图说明:

  1. 和之前保存一样,option进行设置
  2. 取消压缩
  3. 文本层位于图像层之下,保证保存的pdf视觉上和原pdf完全一样
  4. 让保存的pdf的目录和原pdf一致 (这里有些问题,还是推荐用freepic2pdf进行目录导出导入)
  5. 选择自定义
    6.不改变图片
    7.不允许损失质量

最后设置为每个文件创建一个单独文档,并设置保存的pdf名称
image

在开始任务之前,把需要ocr的pdf拖动到读取文件夹下面,然后run吧

1 个赞

哇,我的那个帖子都已经石沉大海了哈哈哈哈,感谢你把它翻出来哈哈哈哈。

win上这么做我觉得也还是没有直接OCR Pro方便qaq,也是一种可行的方案——可惜我也没有win电脑

2 个赞

abbyy mac端也有 要是mac有ocrpro的话我也不会这么折腾了 没有经过ocrpro的pdf是在太难受,ipad有ocrpro 但是ipad屏幕毕竟没有显示器大

有是有,好几年前的版本,精准度一类的被win的版本甩出去不少

对,iPad比不上Mac的还是显示器大小。而且老的键盘也不行,打字很难受,稳定性也不好,经常打不了字。

我再补充几个:
Readiris Mac/Windows
PDFElement Mac/Windows (用的ABBYY)
pdfsandwich 全平台(命令行,ocr 引擎是 Tesseract)
ocrmypdf 全平台(命令行,ocr 引擎是 Tesseract)

3 个赞

MAC版ABBYY版本有些老,识别差,运行慢,体验不好
可以试试MAC上的Adobe acrobat DC

1 个赞

黑苹果,因为想在mac os里用mn,但abbyy只能找到12的,不知道能不能行

如果不需要精确和OCR Fix的话,在iPad端随便搜个字词,就能让MN3用离线OCR OCR完整个文档,等MN3 OCR完同步好该文档,Mac端好像也能有能选中的文字。

非常遗憾 Ocr之后的pdf,在ipad上浏览 缩放都有很大几率闪退。
如果不ocr,在ipad 上使用ocr pro,那么mac端就没办法用。。。
问客服就说pdf尺寸太大,也没看见其他pdf软件闪退,就mn。。呵呵,明明就是优化差

Hello

您好,这个还在持续优化中呢~也与多方因素有关呢

Kind Regards,
MarginNote-Relight
Support Team

顶,windows版本的finereader体验很好

21年4月蹲一波,希望能尽早出来吧,哎

1 个赞

救命 谢谢大神 !但是还是很希望官方快点出来吧!太麻烦了!看文献的时候难道每个文献都要这样折腾吗!!!

原来acrobat dc也可以做出双层ocr。经过了两年,我的abbyy绿色版居然失效了。检索了一下,发现acrobat也行,就是有点糊
如何用Adobe Acrobat DC制作双层pdf? (360doc.com)

1 个赞

其实如果可以这样那就很方便了,也同样可以达到100%的准确率,且可编辑性强,更灵活