很多PDF里文字之间会有空格,导致标题链接无法识别。
建议标题链接可自动忽略原文空格,这将大大提升链接成功率。
很多PDF里文字之间会有空格,导致标题链接无法识别。
建议标题链接可自动忽略原文空格,这将大大提升链接成功率。
说的是中文之间的空格吧?中文文字之间带空格大多数是非正常状况,这时候应该优化 PDF 文字识别,而非为了功能修改逻辑。更别论英语空格了。
可以试试使用插件 OhMyMN 优化中文空格:
诶,就是找不到优化PDF的ocr方法了。求问有没有什么软件能够解决?(我现在用的是abbyy)
我看了这个插件 貌似只是解决摘录的汉字间的多余空格问题,其实还是解决不了问题
其实也不存在修改软件的逻辑,无非是加个类似模糊搜索一样的功能,提高已有标题和PDF原文相关内容关键词的链接而已。这是一劳永逸的解决办法。
要解决OCR造成的问题,那是要每个PDF都可能要得从新手动处理的,工作量很大且目前我没找到好的软件和方法。