pdf在ocr后出现在每个文本行末尾的换行符（复制出来后是一个空格）

KyleXu · 2024 年7 月 10 日 13:48

因为担心ocr pro会更加耗能，所以还是用Acrobat、ABBYY等软件对扫描版pdf做了文本识别。用别的pdf阅读器查看文本识别后的双层pdf时，每个文本行末尾都会多一个换行符。但用mn打开Acrobat做的双层pdf时，没有换行符，而用mn打开ABBYY做的双层pdf时，还是有换行符（复制出来后是一个空格）。所以我猜测是开发人员针对Acrobat识别文本后产生的换行符做了优化。不知道开发人员是否可以对ABBYY识别文本后产生的换行符也进行一下优化呢？识别文本方面我还是更喜欢ABBYY。

Ari_Support-Team · 2024 年7 月 11 日 03:23

Hello

你在学习集OCR设置里:始终使用离线OCR以及关闭，尝试下这两个设置后的识别效果

Kind Regards,

Support Team

KyleXu · 2024 年7 月 11 日 03:57

感谢回复。
始终使用离线OCR的时候是没有空格的，效果非常好，但我就是担心更加耗能
关闭离线OCR的时候，Acrobat识别出的文本没有空格，ABBYY识别出的文本有空格。
用其他的pdf阅读器，不管是Acrobat识别出的文本还是ABBYY识别出的文本，都是有空格的，所以我才会猜测mn针对Acrobat识别出的文本进行了优化。
这倒也不是什么大问题，如果能把ABBYY的空格优化掉的话就更好了。

Ari_Support-Team · 2024 年7 月 11 日 05:54

不是的,而且识别后也体积更大

KyleXu · 2024 年7 月 11 日 06:16

哪种情况体积更大？