docs/features/academic/pdf_nougat.md
学术论文中的数学公式一直是 PDF 翻译的难点——传统的文本提取方法往往将公式渲染成乱码或直接跳过。Meta AI 开发的 NOUGAT(Neural Optical Understanding for Academic Documents)模型专门针对学术文档设计,能够将 PDF 中的内容(包括复杂的数学公式)高质量地转换为结构化的 Markdown 格式。GPT Academic 集成了 NOUGAT 解析能力,为数学和物理等公式密集型论文提供了更精准的翻译方案。
NOUGAT 翻译与标准 PDF 翻译的核心区别在于文档解析阶段。它使用端到端的神经网络模型直接"阅读" PDF 页面图像,输出对应的 Markdown 文本。这种方式的优势在于:
| 特性 | NOUGAT 翻译 | 标准 PDF 翻译 |
|---|---|---|
| 公式处理 | 转换为 LaTeX 公式代码,可正确渲染 | 依赖文本提取,公式常变乱码 |
| 表格识别 | 转换为 Markdown 表格格式 | 结构可能丢失 |
| 章节结构 | 自动识别标题层级 | 需要启发式规则判断 |
| 处理速度 | 较慢(需运行神经网络) | 较快 |
| 环境要求 | 需要额外安装依赖 | 无额外要求 |
如果您要翻译的论文包含大量数学推导、物理公式或化学方程式,NOUGAT 翻译通常能获得明显更好的效果。对于以文字为主的社科类论文,标准翻译方式可能已经足够。
使用此功能前,需要在 GPT Academic 运行环境中安装 NOUGAT 及其相关依赖:
pip install --upgrade nougat-ocr tiktoken
nougat-ocr 是 NOUGAT 模型的 Python 包,tiktoken 用于文本分片。安装过程可能需要较长时间,因为 NOUGAT 模型体积较大。
!!! warning "首次运行需下载模型" 第一次使用 NOUGAT 解析 PDF 时,系统会自动从 Hugging Face 下载预训练模型参数。模型大小约为 1.5GB,下载时间取决于您的网络状况。如果网络不稳定,可能需要配置代理或多次尝试。
NOUGAT 是一个视觉-语言神经网络模型,解析 PDF 需要一定的计算资源:
如果您使用的是 Docker 部署,请确保容器能够访问 GPU(如果有)并分配了足够的内存。
将需要翻译的 PDF 论文上传到 GPT Academic 界面。您可以上传单个文件,也可以将多个 PDF 文件放入文件夹后打包上传进行批量处理。上传完成后,文件路径会自动填入输入框。
此功能同时支持 .mmd 文件——如果您已经用其他方式运行过 NOUGAT 并保存了解析结果,可以直接上传 .mmd 文件跳过解析阶段,只进行翻译。
在函数插件下拉菜单中找到 学术 分类,选择 精准翻译PDF文档(NOUGAT) 插件并点击执行。系统会首先检查 NOUGAT 依赖是否已安装——如果缺失,会提示安装命令并终止。
<!-- IMAGE: feat_pdf_nougat_01_workflow.png --> <!-- 描述: NOUGAT PDF 翻译的操作界面 --> <!-- 标注: ① 上传区显示已上传的 PDF 文件名 ② 函数插件区的"学术"分类 ③ "精准翻译PDF文档(NOUGAT)"插件按钮 ④ 对话区显示的处理进度(包含 NOUGAT 解析和翻译两个阶段) --> <!-- 尺寸建议: 1000px -->点击执行后,系统会依次进行以下处理:
NOUGAT 解析:这是区别于标准翻译的关键步骤。系统调用 NOUGAT 模型逐页"阅读" PDF 文档,将每页内容转换为 Markdown 格式。这个过程计算密集,一篇 20 页的论文可能需要数分钟。首次运行时还会额外花费时间下载模型参数。
解析结果保存:解析完成后,系统会将 NOUGAT 生成的 Markdown 文件(.mmd 格式)保存到下载区。即使后续翻译出现问题,您也可以下载这个中间文件,用于其他用途或重新处理。
内容分割:NOUGAT 输出的 Markdown 文档会被按章节分割成多个片段,每个片段控制在模型的 token 限制之内。分割时会尽量保持章节完整性。
并行翻译:所有片段同时发送给 AI 模型进行翻译。由于 NOUGAT 已经将公式转换为 LaTeX 代码,翻译过程能够正确保留数学表达式。
结果整合:翻译完成的片段按原始顺序合并,生成最终的翻译文档。
处理完成后,您将在下载区获得以下文件:
| 文件类型 | 说明 |
|---|---|
*.nougat.mmd | NOUGAT 解析的原始 Markdown 文件,包含论文的完整结构和公式 |
| 翻译结果文档 | 包含原文和译文对照的 Markdown 文档 |
.mmd 文件是 NOUGAT 专用的 Markdown 变体,可以用任何文本编辑器打开。其中的数学公式以 LaTeX 语法表示(如 $E=mc^2$),在支持数学渲染的 Markdown 阅读器中能正确显示。
翻译结果以原文-译文对照的形式呈现,便于您核对翻译质量。如果您对某些片段的翻译不满意,可以找到对应的原文位置,手动修改或重新翻译该部分。
NOUGAT 翻译并非在所有情况下都是最优选择。以下指南可以帮助您判断何时使用:
实际使用中,您可以先用标准翻译快速预览效果,如果发现公式识别问题严重,再切换到 NOUGAT 翻译重新处理。
NOUGAT 是一个基于 Transformer 的视觉编码器-文本解码器模型。它的输入是 PDF 页面的图像,输出是对应的 Markdown 文本。模型在大规模学术论文数据集上训练,能够:
与基于 OCR + 规则的传统方法不同,NOUGAT 是端到端的神经网络,能够处理各种字体、排版和扫描质量的文档。
尽管 NOUGAT 在公式识别方面表现出色,但它也有一些局限性:
???+ question "NOUGAT 模型下载失败" 模型托管在 Hugging Face,某些网络环境可能访问不畅。尝试以下解决方案:
1. 配置网络代理,确保能访问 huggingface.co
2. 在 GPT Academic 配置文件中设置 `proxies` 代理参数
3. 手动下载模型文件并放置到正确的缓存目录(参考 nougat-ocr 文档)
4. 等待网络状况好转后重试
???+ question "处理速度非常慢" NOUGAT 是计算密集型任务,处理速度受硬件影响很大。可以尝试:
- 确保系统有可用的 GPU 并正确配置 CUDA
- 减少单次处理的文件数量
- 如果只需要翻译论文的部分章节,可以先手动提取相关页面
如果您经常需要处理大量论文,建议部署在配置较高的服务器上。
???+ question "解析结果中公式仍然有错误" NOUGAT 的公式识别虽然比传统方法好很多,但并非 100% 准确。以下情况可能出现问题:
- 非常复杂或嵌套很深的公式
- 使用不常见 LaTeX 宏包的公式
- PDF 扫描质量较低
您可以下载 `.mmd` 文件,手动修正公式错误后再进行翻译。
???+ question "翻译后公式变成了中文" AI 模型有时会"过度翻译",把公式中的变量名也翻译了。这种情况可以:
1. 使用更高性能的模型(如 GPT-4o)
2. 在高级参数区添加指令:"不要翻译数学公式中的变量和符号"
3. 在结果文件中手动修正