docs/minicpm_v2dot6_zh.md
Archieve at: 2025-08-25
MiniCPM-V 2.6 是 MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建,共 8B 参数。与 MiniCPM-Llama3-V 2.5 相比,MiniCPM-V 2.6 性能提升显著,并引入了多图和视频理解的新功能。MiniCPM-V 2.6 的主要特点包括:
🔥 领先的性能。 MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以8B量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。
🖼️ 多图理解和上下文学习。 MiniCPM-V 2.6 还支持多图对话和推理。它在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等主流多图评测基准中取得了最佳水平,并展现出了优秀的上下文学习能力。
🎬 视频理解。 MiniCPM-V 2.6 还可以接受视频输入,进行对话和提供涵盖时序和空间信息的详细视频描述。模型在 有/无字幕 评测场景下的 Video-MME 表现均超过了 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B等商用闭源模型。
💪 强大的 OCR 能力及其他功能。 MiniCPM-V 2.6 可以处理任意长宽比的图像,像素数可达 180 万(如 1344x1344)。在 OCRBench 上取得最佳水平,超过 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等商用闭源模型。基于最新的 RLAIF-V 和 VisCPM 技术,其具备了可信的多模态行为,在 Object HalBench 上的幻觉率显著低于 GPT-4o 和 GPT-4V,并支持英语、中文、德语、法语、意大利语、韩语等多种语言。
🚀 卓越的效率。 除了对个人用户友好的模型大小,MiniCPM-V 2.6 还表现出最先进的视觉 token 密度(即每个视觉 token 编码的像素数量)。它仅需 640 个 token 即可处理 180 万像素图像,比大多数模型少 75%。这一特性优化了模型的推理速度、首 token 延迟、内存占用和功耗。因此,MiniCPM-V 2.6 可以支持 iPad 等终端设备上的高效实时视频理解。
💫 易于使用。 MiniCPM-V 2.6 可以通过多种方式轻松使用:(1) llama.cpp 和 ollama 支持在本地设备上进行高效的 CPU 推理,(2) int4 和 GGUF 格式的量化模型,有 16 种尺寸,(3) vLLM 支持高吞吐量和内存高效的推理,(4) 针对新领域和任务进行微调,(5) 使用 Gradio 快速设置本地 WebUI 演示,(6) 在线demo即可体验。
<sup>+</sup> Token Density:每个视觉 token 在最大分辨率下编码的像素数,即最大分辨率下的像素数 / 视觉 token 数。
注意:闭源模型的 Token Density 由 API 收费方式估算得到。
</details> <details> <summary>点击查看 Mantis Eval, BLINK, Mathverse mv, Sciverse mv, MIRB 上的多图评测结果详情。</summary> <div align="center"> <table style="margin: 0px auto;"> <thead> <tr> <th align="left">Model</th> <th>Size</th> <th>Mantis Eval</th> <th>BLINK val</th> <th>Mathverse mv</th> <th>Sciverse mv</th> <th>MIRB</th> </tr> </thead> <tbody align="center"> <tr> <td colspan="7" align="left"><strong>Proprietary</strong></td> </tr> <tr> <td nowrap="nowrap" align="left">GPT-4V</td> <td>-</td> <td>62.7</td> <td>54.6</td> <td>60.3</td> <td>66.9</td> <td>53.1</td> </tr> <tr> <td nowrap="nowrap" align="left">LLaVA-NeXT-Interleave-14B</td> <td>14B</td> <td>66.4</td> <td>52.6</td> <td>32.7</td> <td>30.2</td> <td>-</td> </tr> <tr> <td colspan="7" align="left"><strong>Open-source</strong></td> </tr> <tr> <td nowrap="nowrap" align="left">Emu2-Chat</td> <td>37B</td> <td>37.8</td> <td>36.2</td> <td>-</td> <td>27.2</td> <td>-</td> </tr> <tr> <td nowrap="nowrap" align="left">CogVLM</td> <td>17B</td> <td>45.2</td> <td>41.1</td> <td>-</td> <td>-</td> <td>-</td> </tr> <tr> <td nowrap="nowrap" align="left">VPG-C</td> <td>7B</td> <td>52.4</td> <td>43.1</td> <td>24.3</td> <td>23.1</td> <td>-</td> </tr> <tr> <td nowrap="nowrap" align="left">VILA 8B</td> <td>8B</td> <td>51.2</td> <td>39.3</td> <td>-</td> <td>36.5</td> <td>-</td> </tr> <tr> <td nowrap="nowrap" align="left">InternLM-XComposer-2.5</td> <td>8B</td> <td>53.1*</td> <td>48.9</td> <td>32.1*</td> <td>-</td> <td>42.5</td> </tr> <tr> <td nowrap="nowrap" align="left">InternVL2-8B</td> <td>8B</td> <td>59.0*</td> <td>50.9</td> <td>30.5*</td> <td>34.4*</td> <td><strong>56.9*</strong></td> </tr> <tr> <td nowrap="nowrap" align="left">MiniCPM-V 2.6</td> <td>8B</td> <td><strong>69.1</strong></td> <td><strong>53.0</strong></td> <td><strong>84.9</strong></td> <td><strong>74.9</strong></td> <td>53.8</td> </tr> </tbody> </table> </div> * 正式开源模型权重的评测结果。 </details> <details> <summary>点击查看 Video-MME 和 Video-ChatGPT 上的视频评测结果详情。</summary> <div align="center"> <table style="margin: 0px auto;"> <thead> <tr> <th align="left">Model</th> <th>Size</th> <th colspan="2">Video-MME</th> <th colspan="5">Video-ChatGPT</th> </tr> <tr> <th align="left"></th> <th></th> <th>w/o subs</th> <th>w subs</th> <th>Correctness</th> <th>Detail</th> <th>Context</th> <th>Temporal</th> <th>Consistency</th> </tr> </thead> <tbody align="center"> <tr> <td colspan="9" align="left"><strong>Proprietary</strong></td> </tr> <tr> <td nowrap="nowrap" align="left">Claude 3.5 Sonnet</td> <td>-</td> <td>60.0</td> <td>62.9</td> <td>-</td> <td>-</td> <td>-</td> <td>-</td> <td>-</td> </tr> <tr> <td nowrap="nowrap" align="left">GPT-4V</td> <td>-</td> <td>59.9</td> <td>63.3</td> <td>-</td> <td>-</td> <td>-</td> <td>-</td> <td>-</td> </tr> <tr> <td colspan="9" align="left"><strong>Open-source</strong></td> </tr> <tr> <td nowrap="nowrap" align="left">LLaVA-NeXT-7B</td> <td>7B</td> <td>-</td> <td>-</td> <td>3.39</td> <td>3.29</td> <td>3.92</td> <td>2.60</td> <td>3.12</td> </tr> <tr> <td nowrap="nowrap" align="left">LLaVA-NeXT-34B</td> <td>34B</td> <td>-</td> <td>-</td> <td>3.29</td> <td>3.23</td> <td>3.83</td> <td>2.51</td> <td>3.47</td> </tr> <tr> <td nowrap="nowrap" align="left">CogVLM2-Video</td> <td>12B</td> <td>-</td> <td>-</td> <td>3.49</td> <td><strong>3.46</strong></td> <td>3.23</td> <td><strong>2.98</strong></td> <td><strong>3.64</strong></td> </tr> <tr> <td nowrap="nowrap" align="left">LongVA</td> <td>7B</td> <td>52.4</td> <td>54.3</td> <td>3.05</td> <td>3.09</td> <td>3.77</td> <td>2.44</td> <td><strong>3.64</strong></td> </tr> <tr> <td nowrap="nowrap" align="left">InternVL2-8B</td> <td>8B</td> <td>54.0</td> <td>56.9</td> <td>-</td> <td>-</td> <td>-</td> <td>-</td> <td>-</td> </tr> <tr> <td nowrap="nowrap" align="left">InternLM-XComposer-2.5</td> <td>8B</td> <td>55.8</td> <td>-</td> <td>-</td> <td>-</td> <td>-</td> <td>-</td> <td>-</td> </tr> <tr> <td nowrap="nowrap" align="left">LLaVA-NeXT-Video</td> <td>32B</td> <td>60.2</td> <td>63.0</td> <td>3.48</td> <td>3.37</td> <td><strong>3.95</strong></td> <td>2.64</td> <td>3.28</td> </tr> <tr> <td nowrap="nowrap" align="left">MiniCPM-V 2.6</td> <td>8B</td> <td><strong>60.9</strong></td> <td><strong>63.6</strong></td> <td><strong>3.59</strong></td> <td>3.28</td> <td>3.93</td> <td>2.73</td> <td>3.62</td> </tr> </tbody> </table> </div> </details> <details> <summary>点击查看 TextVQA, VizWiz, VQAv2, OK-VQA上的少样本评测结果详情。</summary> <div align="center"> <table style="margin: 0px auto;"> <thead> <tr> <th align="left">Model</th> <th>Size</th> <th>Shot</th> <th>TextVQA val</th> <th>VizWiz test-dev</th> <th>VQAv2 test-dev</th> <th>OK-VQA val</th> </tr> </thead> <tbody align="center"> <tr> <td align="left" nowrap="nowrap" rowspan="3">Flamingo</td> <td rowspan="3">80B</td> <td>0*</td> <td>35.0</td> <td>31.6</td> <td>56.3</td> <td>40.6</td> </tr> <tr> <td>4</td> <td>36.5</td> <td>39.6</td> <td>63.1</td> <td><strong>57.4</strong></td> </tr> <tr> <td>8</td> <td>37.3</td> <td>44.8</td> <td>65.6</td> <td>57.5</td> </tr> <tr> <td align="left" nowrap="nowrap" rowspan="3">IDEFICS</td> <td rowspan="3">80B</td> <td>0*</td> <td>30.9</td> <td>36.0</td> <td>60.0</td> <td>45.2</td> </tr> <tr> <td>4</td> <td>34.3</td> <td>40.4</td> <td>63.6</td> <td>52.4</td> </tr> <tr> <td>8</td> <td>35.7</td> <td>46.1</td> <td>64.8</td> <td>55.1</td> </tr> <tr> <td align="left" nowrap="nowrap" rowspan="3">OmniCorpus</td> <td rowspan="3">7B</td> <td>0*</td> <td>43.0</td> <td>49.8</td> <td>63.2</td> <td>45.5</td> </tr> <tr> <td>4</td> <td>45.4</td> <td>51.3</td> <td>64.5</td> <td>46.5</td> </tr> <tr> <td>8</td> <td>45.6</td> <td>52.2</td> <td>64.7</td> <td>46.6</td> </tr> <tr> <td align="left" nowrap="nowrap" rowspan="3">Emu2</td> <td rowspan="3">37B</td> <td>0</td> <td>26.4</td> <td>40.4</td> <td>33.5</td> <td>26.7</td> </tr> <tr> <td>4</td> <td>48.2</td> <td>54.6</td> <td>67.0</td> <td>53.2</td> </tr> <tr> <td>8</td> <td>49.3</td> <td>54.7</td> <td>67.8</td> <td>54.1</td> </tr> <tr> <td align="left" nowrap="nowrap" rowspan="2">MM1</td> <td rowspan="2">30B</td> <td>0</td> <td>26.2</td> <td>40.4</td> <td>48.9</td> <td>26.7</td> </tr> <tr> <td>8</td> <td>49.3</td> <td>54.7</td> <td><strong>70.9</strong></td> <td>54.1</td> </tr> <tr> <td align="left" nowrap="nowrap" rowspan="3">MiniCPM-V 2.6<sup>+</sup></td> <td rowspan="3">8B</td> <td>0</td> <td>43.9</td> <td>33.8</td> <td>45.4</td> <td>23.9</td> </tr> <tr> <td>4</td> <td>63.6</td> <td>60.5</td> <td>65.5</td> <td>50.1</td> </tr> <tr> <td>8</td> <td><strong>64.6</strong></td> <td><strong>63.4</strong></td> <td>68.2</td> <td>51.4</td> </tr> </tbody> </table> </div> * 使用 Flamingo 方式 zero image shot 和 two additional text shots 评估零样本性能。<sup>+</sup> 我们在没有进行监督微调 (SFT) 的情况下评估预训练的模型权重 (ckpt)。
</details>我们将 MiniCPM-V 2.6 部署在iPad Pro上,并录制了以下演示视频。
<table align="center"> <p align="center">
</p>
| 模型 | 设备 | 资源 | 简介 | 下载链接 |
|---|---|---|---|---|
| MiniCPM-V 2.6 | GPU | 17 GB | 提供出色的端侧单图、多图、视频理解能力。 | 🤗 </img> |
| MiniCPM-V 2.6 gguf | CPU | 6 GB | gguf 版本,更低的内存占用和更高的推理效率。 | 🤗 </img> |
| MiniCPM-V 2.6 int4 | GPU | 7 GB | int4量化版,更低显存占用。 | 🤗 </img> |