搜索: "实时交互"

共找到 3 篇相关文章

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

本文第一作者李淳誉为复旦大学博士生，主要研究方向为视频生成扩散模型；复旦大学硕士生李佳烨为共同一作。复旦大学教授，上海创智学院全时导师朱思语为通讯作者。文本驱动的音视频数字人，正在从 “能生成” 走向 “能实时交互”。但这条路并不好走。一方面，视频和语音的联合生成本身就是高维、重计算任务；另一方面，一旦为了速度做激进加速，嘴型同步、语音自然度和人物细节往往会一起下滑。最近，来自上海创智学院、复旦大

科技2026/5/251 阅读

CVPR2026：Streamo——将大型模型转变为实时交互流助手

在 MVBench 和 VideoMME 等离线基准测试中，视频大模型表现优异，然而在实际交互场景中，仍面临两个主要挑战：如何处理无边界视频流以及如何在动态视频流中确定响应时机。最近，香港浸会大学与腾讯优图实验室合作，提出了 Streamo，其创新之处在于将“何时回答”这一决策纳入模型预测，通过端到端训练框架直接将离线视频模型转换为实时流视频助手。Streamo 能处理真实场景中的视频流，支持实时

科技2026/3/203 阅读

马斯克赞赏阿里开源Qwen3.5小型模型：智能表现令人惊叹

最近，阿里巴巴更新了其开源项目，发布了Qwen 3.5系列中的四款小型模型。这些新模型中最小的是0.8B和2B版本，它们体积小巧，推理速度非常快，非常适合在移动设备、物联网边缘计算环境中以及需要低延迟实时交互的应用场景中使用。另一款4B的模型则性能强劲，适合作为轻量级代理的核心大脑，能够在保证高性能的同时减少资源消耗。9B版本的这款模型，在智力需求较高但内存有限制的情况下表现优异，适用于服务器端部

AI2026/3/53 阅读