搜索: "实时交互"

共找到 3 篇相关文章

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

本文第一作者李淳誉为复旦大学博士生,主要研究方向为视频生成扩散模型;复旦大学硕士生李佳烨为共同一作。复旦大学教授,上海创智学院全时导师朱思语为通讯作者。文本驱动的音视频数字人,正在从 “能生成” 走向 “能实时交互”。但这条路并不好走。一方面,视频和语音的联合生成本身就是高维、重计算任务;另一方面,一旦为了速度做激进加速,嘴型同步、语音自然度和人物细节往往会一起下滑。最近,来自上海创智学院、复旦大

科技1 阅读
CVPR2026:Streamo——将大型模型转变为实时交互流助手

CVPR2026:Streamo——将大型模型转变为实时交互流助手

在 MVBench 和 VideoMME 等离线基准测试中,视频大模型表现优异,然而在实际交互场景中,仍面临两个主要挑战:如何处理无边界视频流以及如何在动态视频流中确定响应时机。最近,香港浸会大学与腾讯优图实验室合作,提出了 Streamo,其创新之处在于将“何时回答”这一决策纳入模型预测,通过端到端训练框架直接将离线视频模型转换为实时流视频助手。Streamo 能处理真实场景中的视频流,支持实时

科技3 阅读
马斯克赞赏阿里开源Qwen3.5小型模型:智能表现令人惊叹

马斯克赞赏阿里开源Qwen3.5小型模型:智能表现令人惊叹

最近,阿里巴巴更新了其开源项目,发布了Qwen 3.5系列中的四款小型模型。这些新模型中最小的是0.8B和2B版本,它们体积小巧,推理速度非常快,非常适合在移动设备、物联网边缘计算环境中以及需要低延迟实时交互的应用场景中使用。另一款4B的模型则性能强劲,适合作为轻量级代理的核心大脑,能够在保证高性能的同时减少资源消耗。9B版本的这款模型,在智力需求较高但内存有限制的情况下表现优异,适用于服务器端部

AI3 阅读