消费级显卡可以快速上手跑！面壁智能MiniCPM-o 4.5发技术报告

张

张建站

2026/4/29 14:56:59

10分钟阅读

面壁智能投稿量子位 | 公众号 QbitAI面壁智能公开了自己在全双工全模态交互领域的核心技术——Omni-Flow 流式全模态框架。今天面壁智能联合OpenBMB开源社区、清华大学THUNLP实验室和THUMAI实验室正式发布MiniCPM-o 4.5技术报告。过往大模型均为半双工交互模式类似对讲机式轮次对话。用户与AI无法并行交流AI无法实时感知环境、不能被打断插话存在交互时空割裂用户体验差严重制约多模态AI落地应用。MiniCPM-o 4.5是面壁智能今年2月发布的全双工全模态模型也是业界首个端到端全双工全模态大模型。△MiniCPM-o 4.5 实现了最右侧的全双工流式交互该模型参数规模约9B支持视频、音频、文本流输入及文本与语音的连续输出。利用MiniCPM-o 4.5不用联网、仅用一张消费级显卡你就能在个人电脑上拥有一个“边看、边听、边说、还能主动提醒”的类人AI助手。目前MiniCPM-o 4.5已基于llama.cpp完成模型量化和推理性能优化实测最低12GB显存的RTX 5070即可流畅运行全双工模式RTF0.4)极大降低了个人端侧部署的准入门槛。M1-M5 Max包含M5 Pro的MAC设备亦可使用建议内存超过16G。下面这支视频展示了MiniCPM-o 4.5在个人笔记本上的完整部署与运行过程包括全双工语音对话、实时视觉理解、主动提醒等能力演示。模型发布至今抱抱脸下载量已突破25万。技术报告发布之外MiniCPM-o 4.5还同步推出在线体验Demo、全模态全双工API、端侧安装包Comni和Demo仓库。核心依托Omni-Flow流式全模态框架MiniCPM-o 4.5极致流畅的全双工交互体验核心依托于面壁智能与清华大学联合研发的Omni-Flow流式全模态框架。这也是本次技术报告公开的核心底层技术。该框架打破传统模型孤立的回合式交互逻辑搭建起毫秒级统一时间轴。通过时分复用机制Omni-Flow流式全模态框架将视觉、音频、文本等多模态并行信息流精准对齐、拆分重组为周期性时序信息组。模型以每秒一次的高频次持续刷新环境认知实时更新对场景和用户意图的理解全程无需依赖外部VAD语音活动检测工具原生支持持续感知、即时响应、自由打断。在模型架构上MiniCPM-o 4.5采用轻量化端到端全模态设计整体仅9B参数由四大核心模块高效协同构成0.4B参数SigLIP-ViT视觉编码器负责环境视觉感知0.3B参数Whisper-Medium音频编码器完成声音信息采集8B参数Qwen3-8B LLM基座承担核心思考与语义理解搭配0.3B参数轻量级语音Token解码器实现语音生成。模块化分工设计各司其职、高效联动既保留了大模型强大的理解推理能力又规避了复杂声学任务对核心算力的损耗。同时搭配自研TAIL时间对齐交错语音生成方案精准匹配文本与语音输出节奏。在保证语音流畅自然、情感饱满的前提下最大限度降低交互延迟彻底解决流式对话卡顿、滞后、衔接生硬的行业难题。参数不大但实力不容小觑。在多项权威评测基准中实现越级对标MiniCPM-o 4.5综合性能比肩甚至超越多款行业前沿大模型。在视觉能力上模型OpenCompass综合得分77.6、MMBench英文得分87.6整体表现对标Gemini 2.5 Flash图像理解、数学推理、文档解析能力表现优异。在全模态动态交互、视频场景理解领域MiniCPM-o 4.5的优势更为突出。Daily-Omni、Video-Holmes等多项评测数据显示MiniCPM-o 4.5优于Gemini 2.5 Flash等大模型的表现在LiveSports-3K-CC全双工视频基准测试中胜率达到54.4%领先各类专用流式视频模型。同时模型推理效率优势显著。INT4量化版本显存占用大幅降低仅需12GB显存即可运行解码速度可达212 tokens/s相较同类模型提速40%以上响应延迟更低性价比与落地优势拉满。除此之外模型搭载多项实用特色功能适配多元化使用场景。MiniCPM-o 4.5全面支持中英双语实时语音对话语音生成质量行业领先中文CER、英文WER错误率低于CosyVoice2等主流模型情感表现力更强。支持简易参考音频即可完成声音克隆与角色扮演音色自然逼真。延续MiniCPM-V系列优势拥有前沿的OCR文档解析能力支持高清图像、高帧率视频处理多语言解析能力覆盖30余种语言。同时模型原生兼容传统轮次对话、Omni-Flow全双工流式交互两种模式无缝切换兼顾精准问答与实时流式交互需求适配各类使用场景。兼顾普通用户体验与开发者二次开发需求为让技术真正落地普惠MiniCPM-o 4.5打造了全渠道、全人群的开放落地体系兼顾普通用户体验与开发者二次开发需求。面向普通用户官方开放无需注册、无需下载的在线体验Demo同时推出适配Windows、macOS系统的桌面端Comni一键安装包简化部署流程普通用户可快速上手体验全双工AI交互能力。面向广大开发者平台免费开放全双工实时WebSocket API提供完整规范的接口文档支持快速接入各类应用同时完整开源Demo前后端代码开放Linux部署方案支持开发者自由二次开发、自定义调试助力各类全模态AI应用快速落地。依托原生全双工、持续感知、主动交互的核心能力MiniCPM-o 4.5突破了传统AI单次问答的场景局限解锁了大量全新流式交互应用场景。在生活服务领域有望作为沉浸式智能陪伴助手在用户运动、烹饪、日常劳作时实时答疑、主动提醒、全程指导。在无障碍公益领域可为视障人群提供实时环境感知服务主动播报路况、设备状态、环境变化成为可靠的“视觉辅助助手”。在智能车载领域可以持续监测路况与驾驶员状态主动预警风险、提示可用车位、辅助泊车提升驾驶安全性。在具身智能领域可作为机器人核心大脑持续感知动态环境、自主决策交互时机适配智能机器人、智能家居等智能化场景覆盖生活化、公益化、工业级多维度需求。可以说MiniCPM-o 4.5把“主动式AI”从概念变成了可以在你电脑上跑起来的东西。当然团队也在技术报告中坦诚指出了当前不足长时间交互的稳定性、主动行为的丰富性、对复杂场景的鲁棒性都还有提升空间。但这不妨碍它已经立起了一个新的起点——全双工全模态、端侧可部署、全栈开源这条路线跑通了。目前MiniCPM-o 4.5在线体验、API、端侧安装包、Demo代码仓库所有入口都已在GitHub和面壁官网上线。感兴趣的小伙伴可以直接上手体验期待大家在评论区反馈。技术报告PDFhttps://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf在线体验https://minicpmo45.modelbest.cn/在线体验手机端推荐https://minicpmo45.modelbest.cn/mobile/GitHub Demo含本地安装包https://github.com/OpenBMB/MiniCPM-o-Demo抱抱脸https://huggingface.co/openbmb/MiniCPM-o-4_5魔搭https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

3分钟解决Axure RP界面难题：一键切换中文版的高效方案

3分钟解决Axure RP界面难题：一键切换中文版的高效方案【免费下载链接】axure-cn Chinese language file for Axure RP. Axure RP 简体中文语言包。支持 Axure 11、10、9。不定期更新。项目地址: https://gitcode.com/gh_mirrors/ax/axure-cn 还在为Axure R…...

2026/4/29 14:55:16 阅读更多 →

为什么92%的Laravel项目在集成AI后6个月内遭遇Token泄露或Prompt注入？——基于OWASP Top 10 for AI的5步加固协议

更多请点击： https://intelliparadigm.com 第一章：Laravel 12 AI集成安全危机的根源剖析 Laravel 12 引入了原生 AI 辅助能力（如 Illuminate\AI 命名空间），支持无缝对接 OpenAI、Anthropic 及本地 LLM。然而&#xf…...

2026/4/29 14:52:24 阅读更多 →

nRF5 SDK新手避坑指南：搞懂Softdevice、sdk_config.h和Makefile这三座大山

nRF5 SDK开发实战：从协议栈到编译系统的深度解析第一次打开nRF5 SDK的开发者，往往会被三个核心概念搞得晕头转向：为什么协议栈要单独烧录？sdk_config.h里上百个配置项到底怎么选？Makefile里那些晦涩的变量又该如何设置…...

2026/4/29 14:51:24 阅读更多 →

如何理解临键锁Next-Key Lock_行锁与间隙锁的组合原理解析

临键锁锁定的是左开右闭区间，如对索引值20加锁即锁住(10,20]，包含记录20及前一索引间隙；仅作用于被扫描的索引范围，且在REPEATABLE READ下启用。临键锁到底锁了哪块数据？临键锁不是新锁类型，而是 Record Lo…...

2026/4/29 5:02:10 阅读更多 →

CUDA 13.3 RTX 4090实测报告：FP16混合精度算子性能断层分析（含37个主流PyTorch算子汇编级差异对比）

更多请点击： https://intelliparadigm.com 第一章：CUDA 13.3 RTX 4090混合精度算子性能断层分析总览 NVIDIA RTX 4090 搭载的 Ada Lovelace 架构在 CUDA 13.3 中首次全面启用第三代 Tensor Core 的 FP8 原生支持，使得混合精度计算路径&…...

2026/4/29 11:04:37 阅读更多 →

Vue3项目实战：手写Ant Design Vue a-table拖拽排序（绕过付费功能）

Vue3项目实战：基于Ant Design Vue的a-table手写拖拽排序方案去年接手一个从React迁移到Vue3的项目时，遇到了一个有趣的挑战。项目使用了Ant Design Vue作为UI组件库，在实现菜单管理列表的拖拽排序功能时，发现官方提供的a-table拖…...

2026/4/29 14:47:33 阅读更多 →

2026届最火的AI辅助写作平台实测分析

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在人工智能进行交互期间，指令存在冗余情形常常会致使输出出现偏差以及造成效率方…...

2026/4/29 6:09:44 阅读更多 →