README_mrag.md
多模态知识管理
多模态知识管理是一款面向多模态文档的综合性RAG平台,能够高效解析和查询多种内容形态的复杂文档,为复杂文档的智能问答与内容生成提供一站式解决方案。
🎯 核心特性
注意移步至mrag分支
📺 部署使用指南视频
在公开数据集DoubleBench上,我们对比测评了MDocAgent、Colqwen-gen、ViDoRAG、M3DOCRAG等多模态问答系统。
最终答案的准确性采用LLM作为评判标准进行评估(https://arxiv.org/abs/2306.05685) 。 GPT-4o根据0到10的等级对生成的答案与真实答案的正确性进行评分。得分不低于7分的答案为正确,不高于3分的答案为错误,其余答案为部分正确。
测评结果如下:JoyAgent的正确率达到76.2%,优于当前其他多模态问答系统。
| 系统 | 正确✅ | 部分正确❓ | 错误❌ |
|---|---|---|---|
| JoyAgent | 0.762 | 0.105 | 0.133 |
| MDocAgent | 0.757 | 0.132 | 0.111 |
| Colqwen-gen | 0.676 | 0.160 | 0.164 |
| ViDoRAG | 0.623 | 0.144 | 0.233 |
| M3DOCRAG | 0.538 | 0.138 | 0.324 |
MDocAgent: 北卡罗来纳大学-2025年(https://arxiv.org/abs/2503.13964)
ViDoRAG:阿里巴巴NLP实验室-2025年(https://arxiv.org/abs/2502.18017)
M3DOCRAG:北卡罗来纳大学-2025年(https://arxiv.org/abs/2411.04952)
Colqwen-gen:参照组,结果由gpt-4o直接回复生成(不采用RAG)。
具体见JoyAgent首页的配置说明
贡献者:Liu Shangkun,Li Yang,Jia Shilin,Tian Shaohua,Wang Zhen,Yao Ting,Wang Hongtao,Zhou Xiaoqing,Liu min,Zhang Shuang,Liuwen,Yangdong,Xu Jialei,Zhou Meilei,Zhao Tingchong,Wu jiaxing, Wang Hanmin, Zhou Zhiyuan, Xu Shiyue,Liu Jiarun, Hou Kang, Jing Lingtuan, Guo Hongliang, Liu Yanchen, Chen Kun, Pan Zheyi, Duan Zhewen, Tu Shengkun, Zhang Haidong, Wang Heng, Zhang Junbo, Liu haibo, Song Li, Zhang Meng
所属机构:京东CHO企业信息化团队(EI)、京东科技协同办公团队、京东物流
我们欢迎所有好想法和建议,如果您想成为项目的共建者,可随时向我们提Pull Request。无论是完善产品和框架、修复bug还是添加新特性,您的贡献都非常宝贵。 在此之前需要您阅读并签署贡献者协议并发送到邮箱[email protected],请阅读 贡献指南中文版,贡献指南英文版
如需学术引用,请使用以下 BibTeX:
@software{JoyAgent-JDGenie,
author = {Agent Team at JDCHO},
title = {JoyAgent-JDGenie},
year = {2025},
url = {https://github.com/jd-opensource/joyagent-jdgenie},
version = {0.1.0},
publisher = {GitHub},
email = {[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected];[email protected]}
}
欢迎沟通和联系我们