【第三方MN插件】MN OCR，公式表格识别利器

linlifei · 2024 年5 月 30 日 18:28

插件反馈

如果你对插件有任何反馈，都可以通过以下链接：https://mnaddon.craft.me
测试版下载：https://marginnote.craft.me/changelog/ocr
常见问题：常见问题（先看这里）
论坛更新较慢，最新文档请看：MN OCR
也可以加入qq群：539305227
腾讯频道：https://pd.qq.com/s/38e6i5one
小红书：http://xhslink.com/m/80rv3rT5lFq

！插件依赖 MN Utils 插件运行

由于API缺失，MN3很多功能无法使用

请先安装MN Utils插件 MN Utils

0.0.4
mnocr_v0_0_4.mnaddon (34.7 KB)
1. 模型更新
2. 优化md5计算耗时
3. 优化图片转换耗时
4. 清空缓存功能改为清空所有识别缓存
5. 改进提示词，需要重置使用
6. 整理OCR模型配置，为热更新做准备
7. 修复无法切换doc2x和simpletex的bug
8. 增加一个源：Custom Model，需要安装MN ChatAI 才能看到
- 切换到Custom Model源后点击设置即可更改模型（逻辑和MN ChatAI一样，是直接读取对应的配置，所以需要提前在MN ChatAI中进行配置）
1. 改进ocrNetwork.readImage
2. 新增Moonshot OCR
3. 支持智谱的OCR服务
4. 支持基于MinerU的图片OCR服务
5. 改进默认提示词

一、Doc2X和simpleTex识别

先上演示

简单的文字OCR

CleanShot 2024-05-08 at 23.01.15.mp4

公式OCR

CleanShot 2024-05-08 at 22.42.45.mp4

表格OCR

CleanShot 2024-05-08 at 23.03.41.mp4

混合OCR

两家看起来半斤八两

CleanShot 2024-05-08 at 23.12.46.mp4

CleanShot 2024-05-08 at 23.13.56.mp4

支持两家OCR提供商：Doc2X（目前只支持原始pdf文件转Markdown）和SimpleTex，功能上类似

使用条件：

如果已经激活了MN Subscription，则可以直接使用，不需要在设置中填写apikey

价格为每次OCR 消耗0.005$
使用自己的apikey

在对应官网注册登录并复制apikey

打开MN OCR，点击设置，在对应提供商页面下点击粘贴按钮即可
- 对于Doc2X而言，会多出来一个refresh按钮，这是因为apikey实际上是refresh_token，需要一次刷新才能得到用于ocr的access_token。
- 点击paste按钮时会自动执行一次refresh，以及每次MN冷启动后的第一次OCR请求也会自动刷新一次，因此一般情况下不需要手动刷新

Doc2X（服务暂停）: https://doc2x.noedgeai.com/user

SimpleTex（需要充值20才能使用）: https://simpletex.net/user/center?menu=oapi

二、视觉大模型 OCR

当前支持以下模型（除glm-4v-flash外需要订阅）
- glm-4v-flash （免费）
- GPT-4o
- GPT-4o-mini
- gemini-2.0-flash
- gemini-2.0-pro
- claude-3-5-sonnet-20241022
- Moonshot-v1
- glm-4v-plus
- MiniMax-Text-01
- abab6.5s-chat
注意订阅下调用视觉AI是按量收费（可在Utils中查询使用记录）

image1046×992 118 KB
支持自行配置prompt
因此你甚至可以实现让AI直接翻译图片文字或者解析图片中的非文字内容

image1256×646 72 KB

三、其他：

为MN ChatAI提供了OCR能力
可通过MN Toolbar直接调用
MN AutoStyle借此实现了摘录时自动OCR

历史版本

0.0.3:
mnocr_v0_0_3.mnaddon (76.6 KB)
1. UI更新
2. 更新视觉模型
3. 新增免费模型gemini-2.0-flash-lite、gemini-2.5-flash-lite、gpt-4.1-nano、doubao-seed-1-6-flash
4. doc2x重新支持图片识别
5. doc2x支持使用订阅key识别图片，单次识别价格0.021
6. 改进报错显示
7. 增加按钮:OCR->option
8. 修复一些bug
9. 为OCR结果添加日志
0.0.2:
mnocr_v0_0_2.mnaddon (75.5 KB)
1. 改进图片提取规则，修复部分场景图片提取错误以及合并摘录的图片没有识别到的问题
2. 修复多空格未被正确合并导致MN无法渲染的问题
3. 尝试支持自动转文字优先（配合MN Utils 0.0.7及往后版本)
4. OCR报错改进
5. 新增按钮OCR → Editor和OCR→ChildNote
6. 可被Toolbar控制logo开关
7. 新增OCR结果缓存，同样的图片在同样的配置下直接返回缓存结果
8. 适配新API，OCR → Excerpt基本不再需要额外手动操作
9. 新增Doc2X PDF OCR，直接将整个PDF识别为一个markdown文档
10. 修复PDF OCR导出按钮的问题
11. 修复Toolbar中的OCR可能会导致默认OCR源被切换的问题
12. 修复Toolbar中的OCR无响应的问题
13. 优化拖拽逻辑
14. 支持使用视觉AI模型进行OCR（除免费模型外需保持订阅状态）：
- GLM-4V Flash （免费）
- Gemini-2.0 Flash Lite（免费）
- Gemini-2.5 Flash Lite（免费）
- GPT-4.1 Nano（免费）
- Doubao-seed-1.6 Flash（免费）
- GPT-4o
- GPT-4o Mini
- GPT-4.1
- GPT-4.1 Mini
- MiniMax-Text-01
- Doubao-seed-1.6
- Gemini-2.0 Flash
- Gemini-2.5 Pro
- Gemini-2.5 Flash
- Claude-3-5 Sonnet
- Claude-3.7 Sonnet
- Moonshot-v1
- GLM-4V Plus
1. 继续修复按钮异常问题
2. 修复doc2x刷新accessToken的问题
3. 修复缓存功能的问题
4. 修复无法切换OCR源的问题
5. 部分UI调整
6. 改进doc2x行间公式符替换逻辑
7. 为doc2x和simpletex的图片OCR新增一个自定义action,目前仅支持replace
8. 修复图片OCR结果缓存后再点击按钮replace不生效的问题
9. 尝试修复偶发插件崩溃
10. 尝试修复最近的玄学bug
11. 尝试修复通过URL Scheme冷启动MN时的问题
12. 自动替换\tag{1}等为(1)
13. 修复按钮图片不显示的问题
14. 适配Doc2X最新API，仅支持PDF OCR，同时移除图片OCR功能
15. 改进提示逻辑
16. AI OCR的prompt增加重置按钮
0.0.1：
mnocr_v0_0_1.mnaddon (64.5 KB)

xuedingedemao · 2024 年7 月 22 日 13:44

请问doc2x配置好api key之后，点击ocr->comment，出现no request可能是什么原因

linlifei · 2024 年7 月 22 日 13:50

先更新最新测试版

haochengquan · 2024 年7 月 29 日 13:29

我也是这个问题，有解决吗，发现是什么问题了吗

haochengquan · 2024 年7 月 29 日 13:55

SimpleTex是可以用的

xuedingedemao · 2024 年7 月 30 日 08:12

没有，我更新到测试版后，ui好像都有点问题，配置不了api

haochengquan · 2024 年7 月 31 日 07:00

我就是在4上面安装的可以用

gzz · 2024 年10 月 13 日 09:00

能不能增加一下gpt4o的识别，很多情况simpletex识别没gpt4o好

gzz · 2024 年10 月 14 日 01:25

找到了，订阅一下就好，贼好用，感恩～

kot · 2025 年5 月 28 日 13:20

出现这个问题该如何解决？我是订阅的api

linlifei · 2025 年5 月 28 日 13:43

谷歌已经没有这个模型了