
在 MVBench 和 VideoMME 等离线基准测试中,视频大模型表现优异,然而在实际交互场景中,仍面临两个主要挑战:如何处理无边界视频流以及如何在动态视频流中确定响应时机。
最近,香港浸会大学与腾讯优图实验室合作,提出了 Streamo,其创新之处在于将“何时回答”这一决策纳入模型预测,通过端到端训练框架直接将离线视频模型转换为实时流视频助手。Streamo 能处理真实场景中的视频流,支持实时多指令交互,涵盖实时解说、动作理解、事件定位和实时问答等多种任务,使得实时视频助手真正成为可能。

- 本文标题为:《Streaming Video Instruction Tuning》
- 尽管视频大模型在视频理解、问答和描述等任务上已经取得了显著进展,但要成为一个实时交互助手,仍面临诸多挑战。当前模型大多基于完整视频片段设计,而实际应用则要求实时流式处理。
- 离线视频理解模式假设视频在推理前完整可用,因此模型可以在全局视角下提供答案。然而,真实世界的流式场景并不满足这一前提,视频流是无界的,模型只能基于当前帧进行即时判断。
1. 问题分析
实时流式场景的无界性和即时性,使得视频大模型在处理这类场景时面临困难。模型需要在关键事件发生时及时响应,同时还要应对用户随时发出的指令。
当前的方法通常通过拆分决策模块来适应流式场景,但这种方案存在明显的局限性。决策模块如果过于简单,则难以理解复杂的指令和跨时间的上下文关系;如果过于复杂,则会增加推理延迟,影响实时性。
Streamo 的核心理念是将决策和生成统一到同一个端到端框架中,让模型学会在合适的时间点做出响应。
Streamo 通过将决策与生成统一到 next-token prediction 过程中,使得模型能够在连续变化的视频内容中联合建模时序线索、任务目标与语言输出,从而更好地学习何时应当立即响应,何时应当等待。
该设计不依赖于额外的决策头或外部控制器,而是直接将决策信息融入标准的自回归训练框架中,既保持了与现有微调范式的兼容性,也简化了训练和推理流程,便于大规模部署。
在开发 Streamo 时,研究者面临的一个关键挑战是如何构建一个能够涵盖不同任务的高质量训练数据集。这需要明确的时间边界,告诉模型何时应保持沉默,何时应等待,何时应响应。
为此,研究团队构建了 Streamo-Instruct-465K 数据集,包含约 46.5 万条指令样本,涵盖多种任务,如实时旁白、事件字幕、动作字幕、事件时序定位和时变问答等。


该数据集不仅提供了内容监督,还明确了时间边界,使模型能够学习何时该沉默,何时该等待,何时该响应。这使得模型能够更好地适应不同流式任务的响应需求。
在 OVO-Bench 上,Streamo-7B (2fps) 的平均性能达到 57.86%,超越了 Dispider13.83个百分点。在三大能力维度上全面领先,包括实时感知能力、回溯追踪能力和前向响应能力。
Streamo 不仅在性能上超越了现有方法,还展示了强大的泛化能力。在1fps训练的模型可以直接在2fps下评估,性能提升4.66%。
与 ET-Instruct-164K 相比,Streamo-Instruct 在 OVO-Bench 上的整体性能提升了11.79%,在关键的前向主动响应任务上提升了7.1%。
实验显示,直接混合离线数据可能会削弱模型的在线能力。相比之下,Streamo-Instruct 通过专门设计的流式标注和统一的时间监督,有效避免了这一问题。
实现真正的实时多模态助手,需要解决的关键问题是在合适的时间点做出正确的输出。Streamo 不仅解决了当前视频大模型的关键瓶颈,还提供了一个将静态感知模型转化为动态交互智能体的技术路线,并提供了一个大规模的流视频指令数据集,推动了流视频理解的发展。
Streamo 展示了其在连续视频输入下的实时理解与响应能力,能够随画面进展动态决定何时沉默、何时等待、何时回答,提升了响应的准确性和连贯性。
多任务数据标注演示:
本文的第一作者是香港浸会大学计算机系的博士生夏佳尔,研究方向为多模态大模型,包括多模态思考、流视频理解与交互,在 CVPR、ICCV 和 AAAI 等顶级会议上发表多篇文章。
4. 实验结果
在 OVO-Bench 上,Streamo-7B (2fps) 以57.86%的平均性能超越 Dispider13.83个百分点。在三大能力维度上全面领先:实时感知能力达到67.44%(相对 Dispider 的 54.55% 提升+12.89%);回溯追踪能力达到49.18%(相对 Dispider 的 36.06% 提升+13.12%);前向响应能力达到56.96%(相对 Dispider 的 34.72% 提升+22.24%)。同时,Streamo 在1fps 训练的模型可直接在 2fps 下评估,性能提升4.66%, 展现出强大的泛化能力。

Streamo-Instruct vs 现有数据
Streamo 的性能提升不仅来自训练框架,也高度依赖于高质量的训练数据。与广泛使用的 ET-Instruct-164K 相比,Streamo-Instruct在 OVO-Bench 上的整体性能提升了11.79%,在关键的前向主动响应任务上提升了7.1%,并且避免了混合离线数据(如 LLaVA-Video)所带来的 “在线能力退化” 问题。
实验进一步揭示了一个重要现象:直接混合离线数据可能会削弱模型的在线能力。例如,ET-Instruct 与 LLaVA-Video 结合后,虽然实时感知能力有所提升,但前向响应表现反而下降。这表明,离线监督范式与流式学习目标之间存在一定冲突。相比之下,Streamo-Instruct 通过专门设计的流式标注与统一的时间监督,有效避免了这一问题。
5. 结论
实现真正的实时多模态助手(直播理解、智能驾驶提醒、安防巡检、运动教学等),最难的往往不是 "答对",而是在合适的时间点做合适的输出。Streamo 不仅解决了当前视频大模型的关键瓶颈,提供了一个可复用的技术路线来将静态感知模型转换为动态交互智能体,同时提供了一个统一时间标注的大规模流视频指令数据,推动流视频理解的发展。
6. Demo

https://mp.weixin.qq.com/s/Q28azqwk-PtsXoep2i0_0Q
该 demo 展示了流视频模型在连续视频输入下的实时理解与响应能力。模型能够随画面进展动态决定何时沉默、何时等待、何时回答,在保证时效性的同时提升响应的准确性与连贯性。对于尚无明确答案的问题,模型会等待更多信息后再作答;对于答案随时间变化的问题,模型能够持续更新输出;同时,它还支持基于历史视频内容的回溯式问答。
作者介绍:
本文第一作者为香港浸会大学计算机系博士生夏佳尔,主要研究方向为多模态大模型,包括多模态思考,流视频理解与交互,以第一作者在CVPR,ICCV,AAAI等顶级会议发表多篇文章。导师为香港浸会大学计算机系周锴阳助理教授。
