docs/minicpm_v4_zh.md
Archieve at: 2025-08-25
MiniCPM-V 4.0 是 MiniCPM-V 系列中的最新模型。该模型基于 SigLIP2-400M 和 MiniCPM4-3B 构建,参数总量为 4.1B。它延续了 MiniCPM-V 2.6 在单图、多图和视频理解方面的强大能力,同时大幅提升了推理效率。MiniCPM-V 4.0 的主要特点包括:
🔥 领先的视觉能力。 MiniCPM-V 4.0 在 OpenCompass 上获得了平均 69.0 的高分,超越了 MiniCPM-V 2.6(8.1B,得分 65.2)、 Qwen2.5-VL-3B-Instruct(3.8B,得分 64.5)和广泛使用的闭源模型 GPT-4.1-mini-20250414。在多图理解与视频理解任务上,MiniCPM-V 4.0 也表现出色。
🚀 卓越的效率。 MiniCPM-V 4.0 专为端侧设备优化,可在 iPhone 16 Pro Max 上流畅运行,首 token 延迟低至 2 秒,解码速度达 17.9 tokens/s,且无发热问题。MiniCPM-V 4.0 在并发请求场景下表现出领先的吞吐率指标。
💫 易于使用。 MiniCPM-V 4.0 支持多种推理方式,包括 llama.cpp、Ollama、vLLM、SGLang、LLaMA-Factory 及本地 Web Demo 等。我们还开源了可以在 iPhone 和 iPad 运行的 iOS App。欢迎参考我们开源的 结构清晰的使用手册 玩转 MiniCPM-V 4.0,其中涵盖了详细的部署指南和真实示例。
我们在 iPhone 16 Pro Max 上部署了 MiniCPM-V 4.0 iOS demo,并录制了以下演示录屏,视频未经加速等任何编辑:
<table align="center"> <p align="center">
</p>
<p align="center">
</p>