面壁智能公司最近发布了一篇关于其最新技术成果的报告——MiniCPM-o 4.5。

衡宇 2026-04-28 22:50:10 量子位

下载量突破25万

在全双工全模态交互领域，该公司展示了他们最新的核心技术。

这项技术的突破之处在于它能够实现真正的实时互动体验。

在以往的大模型中，交流方式类似于对讲机式的轮换对话，限制了用户体验和多模态应用的发展。

MiniCPM-o 4.5则是第一个端到端全双工全模态大模型，解决了过去模式中的诸多局限性问题。

此次发布的技术报告中详细介绍了MiniCPM-o 4.5的多项特性及优势。

使用该技术仅需配备消费级显卡和12GB内存即可实现流畅运行，并支持多种语言环境下的实时交互功能。

这款模型集成了Omni-Flow流式全模态框架，确保了其在处理各种多模态信息时的高效性与灵活性。

该技术不仅适用于个人电脑和笔记本设备，在Mac系统上同样能够流畅运行，为用户提供了一个高度集成化的智能助手解决方案。

目前，MiniCPM-o 4.5已在多个权威测评中取得了优异成绩，其综合性能甚至超越了一些行业领先的大模型产品。

MiniCPM-o 4.5的架构设计充分考虑了效率与功能性的平衡，在保持强大处理能力的同时降低了计算资源的需求。

这款技术方案采用了模块化的设计思路，每个组件都有明确的功能定位和协同工作机制，保证系统的高效运作。

实验结果显示，MiniCPM-o 4.5在多个领域的应用中表现突出，包括但不限于无障碍公益、智能车载等领域。

此外，该技术还具备多项实用特色功能，能够满足不同场景下的使用需求。

面向广泛的用户群体，官方提供了无需注册即可体验的在线演示版，并支持Windows和macOS系统快速部署方案。

开发者们也可以通过全双工实时WebSocket API接口轻松接入自己的项目中进行二次开发。

技术报告还指出，在长时间交互稳定性、主动行为丰富性和复杂场景适应性方面，MiniCPM-o 4.5仍有改进空间。

尽管如此，这项技术已经确立了全双工全模态端侧部署和全栈开源的新里程碑。

用户现在可以通过GitHub或面壁智能官方网站获取所有关于MiniCPM-o 4.5的资源，包括在线体验、API接口文档以及开发者的代码仓库等信息。

通过时分复用机制，Omni-Flow流式全模态框架将视觉、音频、文本等多模态并行信息流，精准对齐、拆分重组为周期性时序信息组。

模型以每秒一次的高频次持续刷新环境认知，实时更新对场景和用户意图的理解，全程无需依赖外部VAD语音活动检测工具，原生支持持续感知、即时响应、自由打断。

在模型架构上，MiniCPM-o 4.5采用轻量化端到端全模态设计，整体仅9B参数，由四大核心模块高效协同构成：

0.4B参数SigLIP-ViT视觉编码器负责环境视觉感知；
0.3B参数Whisper-Medium音频编码器完成声音信息采集；
8B参数Qwen3-8B LLM基座承担核心思考与语义理解；
搭配0.3B参数轻量级语音Token解码器实现语音生成。

模块化分工设计各司其职、高效联动，既保留了大模型强大的理解推理能力，又规避了复杂声学任务对核心算力的损耗。

同时搭配自研TAIL时间对齐交错语音生成方案，精准匹配文本与语音输出节奏。

在保证语音流畅自然、情感饱满的前提下，最大限度降低交互延迟，彻底解决流式对话卡顿、滞后、衔接生硬的行业难题。

参数不大，但实力不容小觑。

在多项权威评测基准中实现越级对标，MiniCPM-o 4.5综合性能比肩甚至超越多款行业前沿大模型。

在视觉能力上，模型OpenCompass综合得分77.6、MMBench英文得分87.6，整体表现对标Gemini 2.5 Flash，图像理解、数学推理、文档解析能力表现优异。

在全模态动态交互、视频场景理解领域，MiniCPM-o 4.5的优势更为突出。

Daily-Omni、Video-Holmes等多项评测数据显示，MiniCPM-o 4.5优于Gemini 2.5 Flash等大模型的表现；在LiveSports-3K-CC全双工视频基准测试中，胜率达到54.4%，领先各类专用流式视频模型。

同时模型推理效率优势显著。

INT4量化版本显存占用大幅降低，仅需12GB显存即可运行，解码速度可达212 tokens/s，相较同类模型提速40%以上，响应延迟更低，性价比与落地优势拉满。

除此之外，模型搭载多项实用特色功能，适配多元化使用场景。

MiniCPM-o 4.5全面支持中英双语实时语音对话，语音生成质量行业领先，中文CER、英文WER错误率低于CosyVoice2等主流模型，情感表现力更强。

支持简易参考音频即可完成声音克隆与角色扮演，音色自然逼真。

延续MiniCPM-V系列优势，拥有前沿的OCR文档解析能力，支持高清图像、高帧率视频处理，多语言解析能力覆盖30余种语言。

同时，模型原生兼容传统轮次对话、Omni-Flow全双工流式交互两种模式，无缝切换，兼顾精准问答与实时流式交互需求，适配各类使用场景。

兼顾普通用户体验与开发者二次开发需求

为让技术真正落地普惠，MiniCPM-o 4.5打造了全渠道、全人群的开放落地体系，兼顾普通用户体验与开发者二次开发需求。

面向普通用户，官方开放无需注册、无需下载的在线体验Demo，同时推出适配Windows、macOS系统的桌面端Comni一键安装包，简化部署流程，普通用户可快速上手体验全双工AI交互能力。

面向广大开发者，平台免费开放全双工实时WebSocket API，提供完整规范的接口文档，支持快速接入各类应用；同时完整开源Demo前后端代码，开放Linux部署方案，支持开发者自由二次开发、自定义调试，助力各类全模态AI应用快速落地。

依托原生全双工、持续感知、主动交互的核心能力，MiniCPM-o 4.5突破了传统AI单次问答的场景局限，解锁了大量全新流式交互应用场景。

在生活服务领域，有望作为沉浸式智能陪伴助手，在用户运动、烹饪、日常劳作时实时答疑、主动提醒、全程指导。

在无障碍公益领域，可为视障人群提供实时环境感知服务，主动播报路况、设备状态、环境变化，成为可靠的“视觉辅助助手”。

在智能车载领域，可以持续监测路况与驾驶员状态，主动预警风险、提示可用车位、辅助泊车，提升驾驶安全性。

在具身智能领域，可作为机器人核心大脑，持续感知动态环境、自主决策交互时机，适配智能机器人、智能家居等智能化场景，覆盖生活化、公益化、工业级多维度需求。

可以说，MiniCPM-o 4.5把“主动式AI”从概念变成了可以在你电脑上跑起来的东西。

当然，团队也在技术报告中坦诚指出了当前不足：

长时间交互的稳定性、主动行为的丰富性、对复杂场景的鲁棒性，都还有提升空间。

但这不妨碍它已经立起了一个新的起点——全双工全模态、端侧可部署、全栈开源，这条路线跑通了。

目前，MiniCPM-o 4.5在线体验、API、端侧安装包、Demo代码仓库，所有入口都已在GitHub和面壁官网上线。

感兴趣的小伙伴可以直接上手体验～

期待大家在评论区反馈。

技术报告PDF：

https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

在线体验：

https://minicpmo45.modelbest.cn/

在线体验（手机端推荐）：

https://minicpmo45.modelbest.cn/mobile/

GitHub Demo（含本地安装包）：

https://github.com/OpenBMB/MiniCPM-o-Demo

抱抱脸：

https://huggingface.co/openbmb/MiniCPM-o-4_5

魔搭：

https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

面壁智能公司最近发布了一篇关于其最新技术成果的报告——MiniCPM-o 4.5。

衡宇 2026-04-28 22:50:10 量子位

下载量突破25万

在全双工全模态交互领域，该公司展示了他们最新的核心技术。

这项技术的突破之处在于它能够实现真正的实时互动体验。

在以往的大模型中，交流方式类似于对讲机式的轮换对话，限制了用户体验和多模态应用的发展。

MiniCPM-o 4.5则是第一个端到端全双工全模态大模型，解决了过去模式中的诸多局限性问题。

此次发布的技术报告中详细介绍了MiniCPM-o 4.5的多项特性及优势。

使用该技术仅需配备消费级显卡和12GB内存即可实现流畅运行，并支持多种语言环境下的实时交互功能。

这款模型集成了Omni-Flow流式全模态框架，确保了其在处理各种多模态信息时的高效性与灵活性。

该技术不仅适用于个人电脑和笔记本设备，在Mac系统上同样能够流畅运行，为用户提供了一个高度集成化的智能助手解决方案。

目前，MiniCPM-o 4.5已在多个权威测评中取得了优异成绩，其综合性能甚至超越了一些行业领先的大模型产品。

MiniCPM-o 4.5的架构设计充分考虑了效率与功能性的平衡，在保持强大处理能力的同时降低了计算资源的需求。

这款技术方案采用了模块化的设计思路，每个组件都有明确的功能定位和协同工作机制，保证系统的高效运作。

实验结果显示，MiniCPM-o 4.5在多个领域的应用中表现突出，包括但不限于无障碍公益、智能车载等领域。

此外，该技术还具备多项实用特色功能，能够满足不同场景下的使用需求。

面向广泛的用户群体，官方提供了无需注册即可体验的在线演示版，并支持Windows和macOS系统快速部署方案。

开发者们也可以通过全双工实时WebSocket API接口轻松接入自己的项目中进行二次开发。

技术报告还指出，在长时间交互稳定性、主动行为丰富性和复杂场景适应性方面，MiniCPM-o 4.5仍有改进空间。

尽管如此，这项技术已经确立了全双工全模态端侧部署和全栈开源的新里程碑。

用户现在可以通过GitHub或面壁智能官方网站获取所有关于MiniCPM-o 4.5的资源，包括在线体验、API接口文档以及开发者的代码仓库等信息。

通过时分复用机制，Omni-Flow流式全模态框架将视觉、音频、文本等多模态并行信息流，精准对齐、拆分重组为周期性时序信息组。

在模型架构上，MiniCPM-o 4.5采用轻量化端到端全模态设计，整体仅9B参数，由四大核心模块高效协同构成：

0.4B参数SigLIP-ViT视觉编码器负责环境视觉感知；
0.3B参数Whisper-Medium音频编码器完成声音信息采集；
8B参数Qwen3-8B LLM基座承担核心思考与语义理解；
搭配0.3B参数轻量级语音Token解码器实现语音生成。

模块化分工设计各司其职、高效联动，既保留了大模型强大的理解推理能力，又规避了复杂声学任务对核心算力的损耗。

同时搭配自研TAIL时间对齐交错语音生成方案，精准匹配文本与语音输出节奏。

在保证语音流畅自然、情感饱满的前提下，最大限度降低交互延迟，彻底解决流式对话卡顿、滞后、衔接生硬的行业难题。

参数不大，但实力不容小觑。

在多项权威评测基准中实现越级对标，MiniCPM-o 4.5综合性能比肩甚至超越多款行业前沿大模型。

在视觉能力上，模型OpenCompass综合得分77.6、MMBench英文得分87.6，整体表现对标Gemini 2.5 Flash，图像理解、数学推理、文档解析能力表现优异。

在全模态动态交互、视频场景理解领域，MiniCPM-o 4.5的优势更为突出。

同时模型推理效率优势显著。

INT4量化版本显存占用大幅降低，仅需12GB显存即可运行，解码速度可达212 tokens/s，相较同类模型提速40%以上，响应延迟更低，性价比与落地优势拉满。

除此之外，模型搭载多项实用特色功能，适配多元化使用场景。

MiniCPM-o 4.5全面支持中英双语实时语音对话，语音生成质量行业领先，中文CER、英文WER错误率低于CosyVoice2等主流模型，情感表现力更强。

支持简易参考音频即可完成声音克隆与角色扮演，音色自然逼真。

延续MiniCPM-V系列优势，拥有前沿的OCR文档解析能力，支持高清图像、高帧率视频处理，多语言解析能力覆盖30余种语言。

同时，模型原生兼容传统轮次对话、Omni-Flow全双工流式交互两种模式，无缝切换，兼顾精准问答与实时流式交互需求，适配各类使用场景。

兼顾普通用户体验与开发者二次开发需求

为让技术真正落地普惠，MiniCPM-o 4.5打造了全渠道、全人群的开放落地体系，兼顾普通用户体验与开发者二次开发需求。

依托原生全双工、持续感知、主动交互的核心能力，MiniCPM-o 4.5突破了传统AI单次问答的场景局限，解锁了大量全新流式交互应用场景。

在生活服务领域，有望作为沉浸式智能陪伴助手，在用户运动、烹饪、日常劳作时实时答疑、主动提醒、全程指导。

在无障碍公益领域，可为视障人群提供实时环境感知服务，主动播报路况、设备状态、环境变化，成为可靠的“视觉辅助助手”。

在智能车载领域，可以持续监测路况与驾驶员状态，主动预警风险、提示可用车位、辅助泊车，提升驾驶安全性。

可以说，MiniCPM-o 4.5把“主动式AI”从概念变成了可以在你电脑上跑起来的东西。

当然，团队也在技术报告中坦诚指出了当前不足：

长时间交互的稳定性、主动行为的丰富性、对复杂场景的鲁棒性，都还有提升空间。

但这不妨碍它已经立起了一个新的起点——全双工全模态、端侧可部署、全栈开源，这条路线跑通了。

目前，MiniCPM-o 4.5在线体验、API、端侧安装包、Demo代码仓库，所有入口都已在GitHub和面壁官网上线。

感兴趣的小伙伴可以直接上手体验～

期待大家在评论区反馈。

技术报告PDF：

https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

在线体验：

https://minicpmo45.modelbest.cn/

在线体验（手机端推荐）：

https://minicpmo45.modelbest.cn/mobile/

GitHub Demo（含本地安装包）：

https://github.com/OpenBMB/MiniCPM-o-Demo

抱抱脸：

https://huggingface.co/openbmb/MiniCPM-o-4_5

魔搭：

https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

面壁智能发布MiniCPM-o 4.5：消费级显卡轻松驾驭高性能计算任务

面壁智能公司最近发布了一篇关于其最新技术成果的报告——MiniCPM-o 4.5。

该技术不仅适用于个人电脑和笔记本设备，在Mac系统上同样能够流畅运行，为用户提供了一个高度集成化的智能助手解决方案。

开发者们也可以通过全双工实时WebSocket API接口轻松接入自己的项目中进行二次开发。

兼顾普通用户体验与开发者二次开发需求

面壁智能发布MiniCPM-o 4.5：消费级显卡轻松驾驭高性能计算任务

面壁智能公司最近发布了一篇关于其最新技术成果的报告——MiniCPM-o 4.5。

该技术不仅适用于个人电脑和笔记本设备，在Mac系统上同样能够流畅运行，为用户提供了一个高度集成化的智能助手解决方案。

开发者们也可以通过全双工实时WebSocket API接口轻松接入自己的项目中进行二次开发。

兼顾普通用户体验与开发者二次开发需求

相关文章

相关文章