docs/features/academic/word_summary.md
Word 文档是日常工作中最常见的文档格式之一,从会议纪要到项目报告,从技术方案到研究论文初稿,大量信息都以 Word 格式存储。当您需要快速了解多个 Word 文档的核心内容时,GPT Academic 的批量 Word 总结功能可以为您自动生成每个文档的内容概要。
与 批量总结 PDF 功能类似,本功能同样支持批量处理,但针对 Word 文档的特点进行了优化,能够更好地处理段落结构和文本格式。
.docx(推荐)和 .doc 格式的 Word 文档本功能需要安装 Python 文档处理库。根据您要处理的文档格式,需要不同的依赖:
=== "处理 .docx 格式(跨平台)"
```bash
pip install --upgrade python-docx
```
=== "处理 .doc 格式(仅 Windows)"
```bash
pip install --upgrade python-docx pywin32
```
!!! warning "关于 .doc 格式的限制"
.doc 是旧版 Word 格式,解析它需要调用 Windows 的 COM 接口(通过 pywin32 库),因此仅在 Windows 系统上可用。
如果您使用的是 Linux 或 macOS 系统,或者使用 Docker 部署,请先将 `.doc` 文件转换为 `.docx` 格式。转换方法:
- 用 Microsoft Word 打开后另存为 `.docx`
- 使用 LibreOffice 进行批量转换
- 使用在线转换工具
由于文档总结涉及多次 API 调用,建议选用性价比较高的模型。功能会自动根据当前模型的 Token 限制调整分片大小,使用 模型最大Token × 3/4 作为每个片段的上限。
将需要总结的 Word 文档准备好,支持以下输入方式:
| 输入方式 | 说明 |
|---|---|
| 拖拽上传 | 直接将 .docx 或 .doc 文件拖入文件上传区 |
| 压缩包上传 | 将多个文档打包为 .zip 后上传,系统自动解压并搜索 |
| 输入路径 | 在输入框填写本地文件夹路径,处理该路径下所有 Word 文件 |
系统会递归搜索指定路径下的所有 .docx 和 .doc 文件。
对于每个 Word 文档,系统执行以下步骤:
处理进度会实时显示在对话区。每个片段处理完成后,您都能看到中间结果。
总结完成后,系统会:
对于包含多个文档的批量处理,每个文档的总结会依次显示,最后提示"所有文件都总结完成了吗?"并给出保存的文件路径。
!!! tip "结果文件格式" 总结结果保存为 Markdown 格式文件,包含完整的处理历史记录。您可以下载后用任何 Markdown 编辑器打开查看。
由于 .doc 格式依赖 Windows COM 接口,不同平台的支持情况如下:
| 平台 | .docx 支持 | .doc 支持 | 说明 |
|---|---|---|---|
| Windows | ✅ | ✅ | 完整支持所有格式 |
| Linux | ✅ | ❌ | 需先将 .doc 转为 .docx |
| macOS | ✅ | ❌ | 需先将 .doc 转为 .docx |
| Docker | ✅ | ❌ | 需先将 .doc 转为 .docx |
如果在非 Windows 系统上尝试处理 .doc 文件,系统会提示"请先将.doc文档转换为.docx文档"。
???+ question "提示缺少依赖库" 根据错误信息安装对应的依赖:
- 如果提示缺少 `python-docx`,执行 `pip install python-docx`
- 如果提示缺少 `pywin32`(Windows 处理 .doc 时),执行 `pip install pywin32`
安装完成后重启 GPT Academic 即可。
???+ question ".doc 文件无法处理" 这通常有两种原因:
1. **非 Windows 系统**:`.doc` 格式仅支持 Windows,请先转换为 `.docx`
2. **pywin32 未正确安装**:在 Windows 上,确保安装了 `pywin32` 并重启应用
建议统一使用 `.docx` 格式,它是开放标准,跨平台兼容性更好。
???+ question "文档内容提取不完整" 本功能提取的是文档的段落文本,以下内容可能不会被包含:
- 页眉、页脚中的文字
- 文本框中的内容
- 表格中的数据(部分情况)
- 嵌入的图片和图表
如果这些内容很重要,建议手动检查原文档进行补充。
???+ question "总结质量不佳" 尝试以下优化方法:
- 使用更强大的模型(如 `gpt-4o` 或 `qwen-max`)
- 确保文档是规范的文本内容,而非大量图片或扫描件
- 对于特别重要的文档,考虑使用 [批量文件询问](batch_file_query.md) 功能进行更精细的处理