面壁智能MiniCPM-o 2.6全模态模型发布，性能卓越堪称端侧GPT-4o

2025-03-26 06:01:19

编辑：阳阳资源网

近日消息，面壁智能推出了其最新端侧全模态模型MiniCPM-o 2.6，该模型以其8B的参数规模在多模态能力上与GPT-4o等业界领先模型相媲美，被称为“端侧GPT-4o”。

其采用了端到端多模态架构，可同时处理文本、图像、音频和视频等多种类型的数据，生成高质量文本和语音输出。官方表示，其总参数量 8B，视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别，是开源社区中模态支持最丰富、性能最佳的模型之一。

MiniCPM-o 2.6 支持可配置声音的中英双语语音对话，还具备情感 / 语速 / 风格控制、端到端声音克隆、角色扮演等进阶能力。

近日消息，面壁智能官方公众号发表文章，正式宣告开源MiniCPM3-4B AI模型，这一举动被业界视为标志着“端侧ChatGPT时代”的开启，预示着强大的AI对话功能即将普及至更多终端设备上。

边缘端ChatGPT时代降临，面壁智能揭晓小钢炮MiniCPM3-4B开源AI模型

MiniCPM3-4B 是 MiniCPM 系列的第三代产品，整体性能超过了 Phi-3.5-mini-Instruct 和 GPT-3.5-Turbo-0125，媲美多款 70 亿~90 亿参数的 AI 模型。

相比 MiniCPM1.0 / MiniCPM2.0，MiniCPM3-4B 拥有更强大、更多用途的技能集，可用于更广泛的用途。MiniCPM3-4B 支持函数调用和代码解释器。

下面是 3 个版本的模型结构（1->2->3）的区别：

词表大小：123K->73K->73K

模型层数：40->52->62

隐藏层节点：2304->1536->2560

最大长度：4k->4K->32k

系统提示词：不支持-> 不支持-> 支持

工具调用和代码解释器：不支持-> 不支持-> 支持

MiniCPM3-4B 有一个 32k 上下文窗口。MiniCPM3-4B 借助 LLMxMapReduce，不需要占用太高的内存，可以处理理论上的无限上下文。

面壁智能还发布了 RAG 套件 MiniCPM-Embedding 模型和 MiniCPM-Reranker 模型，针对 RAG 场景还发布了微调版 MiniCPM3-RAG-LoRA 模型。

近日消息，面壁智能携手清华大学自然语言处理实验室共同推出了一项创新研究成果——GitAgent。这是一款具有开创性意义的大模型智能体应用框架，其独特之处在于能够实现自主扩展工具箱功能。

在GitAgent的驱动下，大模型智能体具备了从全球知名开源社区GitHub上自主搜索、学习并集成各类工具集合的能力，从而得以针对各种复杂多变的任务需求迅速进行适应和优化。此举不仅极大地拓宽了大模型智能体的应用领域与解决实际问题的能力，也预示着人工智能技术在自我进化和持续学习方面取得了新的突破。

面壁智能与清华共同发布大模型智能体GitAgent，以应对复杂任务需求

GitAgent 的工具箱扩充过程包括搜索、配置、应用和存储四个阶段。在搜索阶段，GitAgent 会在 GitHub 上搜索适合用户需求的仓库，并判断仓库是否能用来解决问题。在配置阶段，GitAgent 会根据仓库的 README 文件执行配置命令，还可以通过学习人类经验来解决问题。

在应用阶段，GitAgent 使用配置好的仓库来解决用户需求，如果仓库没有清晰的使用入口，GitAgent 还可以通过学习人类经验来解决问题。在存储阶段，GitAgent 将配置好的仓库及其执行环境存储下来，以便未来使用。

研究团队通过案例展示了 GitAgent 的应用，包括 Qlib 搜索、Bringing-Old-Photos-Back-to-Life 配置和 Sniffles 应用。通过 GitAgent，可以灵活选择不同的搜索策略，并能够熟练处理配置和应用阶段中的各种问题。

GitAgent 的发布拓展了大模型智能体的能力边界，使其可以自主扩展工具箱，从而更好地应对复杂任务需求。这一研究成果有望推动大模型智能体技术的发展，帮助人类实现更加多样更加复杂的任务需求。