Doc2x目前仅支持原始pdf文件转markdown
插件反馈
- 如果你对插件有任何反馈,都可以通过以下链接:https://mnaddon.craft.me
- 测试版下载:插件下载(Download mnaddons)
- 常见问题:常见问题(先看这里)
- 论坛更新较慢,最新文档请看:MN OCR
- 注意MN4中所有插件都是未认证状态(即使是在MN3中已认证的插件)
- 也可以加入qq群:539305227
插件需要依赖MN Utils运行
插件下载:
- 0.0.2:
mnocr_v0_0_2.mnaddon (75.5 KB)- 改进图片提取规则,修复部分场景图片提取错误以及合并摘录的图片没有识别到的问题
- 修复多空格未被正确合并导致MN无法渲染的问题
- 尝试支持自动转文字优先(配合MN Utils 0.0.7及往后版本)
- OCR报错改进
- 新增按钮
OCR → Editor
和OCR→ChildNote
- 可被Toolbar控制logo开关
- 新增OCR结果缓存,同样的图片在同样的配置下直接返回缓存结果
- 适配新API,OCR → Excerpt基本不再需要额外手动操作
- 新增Doc2X PDF OCR,直接将整个PDF识别为一个markdown文档
- 修复PDF OCR导出按钮的问题
- 修复Toolbar中的OCR可能会导致默认OCR源被切换的问题
- 修复Toolbar中的OCR无响应的问题
- 优化拖拽逻辑
- 支持使用视觉AI模型进行OCR(除glm-4v-flash外需要保持订阅激活状态):
- glm-4v-flash (免费)
- GPT-4o
- GPT-4o-mini
- gemini-2.0-flash
- gemini-2.0-pro
- claude-3-5-sonnet-20241022
- Moonshot-v1
- glm-4v-plus
- MiniMax-Text-01
- abab6.5s-chat
- 继续修复按钮异常问题
- 修复doc2x刷新accessToken的问题
- 修复缓存功能的问题
- 修复无法切换OCR源的问题
- 部分UI调整
- 改进doc2x行间公式符替换逻辑
- 为doc2x和simpletex的图片OCR新增一个自定义action,目前仅支持replace
- 修复图片OCR结果缓存后再点击按钮replace不生效的问题
- 尝试修复偶发插件崩溃
- 尝试修复最近的玄学bug
- 尝试修复通过URL Scheme冷启动MN时的问题
- 自动替换\tag{1}等为(1)
- 修复按钮图片不显示的问题
- 适配Doc2X最新API,仅支持PDF OCR,同时移除图片OCR功能
- 改进提示逻辑
- AI OCR的prompt增加重置按钮
- 0.0.1:
mnocr_v0_0_1.mnaddon (64.5 KB)
一、Doc2X和simpleTex识别
先上演示
- 简单的文字OCR
CleanShot 2024-05-08 at 23.01.15.mp4
- 公式OCR
CleanShot 2024-05-08 at 22.42.45.mp4
- 表格OCR
CleanShot 2024-05-08 at 23.03.41.mp4
-
混合OCR
两家看起来半斤八两
CleanShot 2024-05-08 at 23.12.46.mp4
CleanShot 2024-05-08 at 23.13.56.mp4
支持两家OCR提供商:Doc2X(目前只支持原始pdf文件转Markdown)和SimpleTex,功能上类似
使用条件:
-
如果已经激活了MN Subscription,则可以直接使用,不需要在设置中填写apikey
价格为每次OCR 消耗0.005$
-
使用自己的apikey
在对应官网注册登录并复制apikey
打开MN OCR,点击设置,在对应提供商页面下点击粘贴按钮即可
- 对于Doc2X而言,会多出来一个refresh按钮,这是因为apikey实际上是refresh_token,需要一次刷新才能得到用于ocr的access_token。
- 点击paste按钮时会自动执行一次refresh,以及每次MN冷启动后的第一次OCR请求也会自动刷新一次,因此一般情况下不需要手动刷新
Doc2X(服务暂停): https://doc2x.noedgeai.com/user
SimpleTex(需要充值20才能使用): https://simpletex.net/user/center?menu=oapi
二、视觉大模型 OCR
- 当前支持以下模型(除glm-4v-flash外需要订阅)
- glm-4v-flash (免费)
- GPT-4o
- GPT-4o-mini
- gemini-2.0-flash
- gemini-2.0-pro
- claude-3-5-sonnet-20241022
- Moonshot-v1
- glm-4v-plus
- MiniMax-Text-01
- abab6.5s-chat
- 注意订阅下调用视觉AI是按量收费(可在Utils中查询使用记录)
- 支持自行配置prompt
因此你甚至可以实现让AI直接翻译图片文字或者解析图片中的非文字内容
三、其他:
- 该插件同时为MN ChatAI提供了OCR能力
- 可以被MN Toolbar直接调用