它石智航携手六大学术机构,共同发布了OmniVTA视觉触觉模型,实现了从被动感知到主动理解的重大突破。
想象你正在擦桌子、削水果或插拔精密零件,这些操作对人类而言轻而易举,但在机器人看来,却是一项技术挑战。
近期,它石智航与新加坡国立大学、复旦大学、中科院自动化所、清华大学、中关村学院及北京航空航天大学合作,推出了OmniVTA视觉触觉操作框架和OmniViTac大规模数据集,使得机器人能够从被动感知升级到主动预测和精确控制,迈出了灵巧操作的关键一步。

这一研究的论文发表于arXiv,并在mrsecant.github.io/OmniVTA项目主页上详细展示。
数据集可在huggingface.co/datasets/tars-robotics/OmniVitac获取。
在机器人领域,尽管触觉传感器已广泛应用,但整个行业仍面临“感知多、操作差”的困境。机器人虽然能够“触摸”,却难以灵活运用这些感知信息。
当前主流方案往往将视觉与触觉特征简单结合后输入策略网络,但这种方式忽视了触觉信号的局部性和时间演化性,无法提供全局感知。
接触本质上是一个随时间演变的过程,如擦拭、削皮、插接等,都是“接触状态随时间变化”的典型例子。然而,现有技术手段通常只依赖当前或历史几帧触觉观测,缺乏对接触动态变化的显式建模。
人类在处理接触操作时,依赖于一套“预测+反馈”的机制。大脑通过前向模型预测动作带来的感觉变化,并结合实时反馈进行调整,这种机制让人类能够在不确定环境中完成稳定而灵巧的操作。
为了应对当前技术挑战,它石智航联合多家顶尖机构,从数据与技术两个层面入手,推出了OmniViTac大规模视触觉数据集,为后续研究奠定了坚实基础。
这是迄今为止规模最大、质量最高的视触觉操作数据集之一,包含了2万多条操作轨迹,涵盖近百种任务和百余种物体,并将接触模式划分为六类,确保了视觉、触觉与动作的高精度同步。
基于OmniViTac数据集,它石创新提出了OmniVTA——一种以世界模型为核心的视触觉操作框架。该方法的核心在于从被动感知转向主动预测触觉,让机器人不仅能感知当前触觉,还能预测未来的触觉演化过程,并据此指导动作规划。

OmniVTA采用慢-快分层控制结构,慢系统基于视觉-触觉世界模型预测未来触觉表征并生成动作序列,快系统则通过高频反馈进行修正,确保动作的稳定性和精细度。
通过四个关键模块,OmniVTA构建了一个闭环控制系统,使机器人具备了“预测触觉—理解接触—修正动作”的能力,从而在复杂接触场景中表现出色。
TactileVAE模块通过时空联合编码与隐式函数解码,将高频触觉信号压缩为低维连续表示,保留了触觉动态变化的信息,为后续预测与控制提供了可泛化的触觉表征。

视触觉世界模型(预测模块)基于双流扩散生成架构,联合建模视觉与触觉的时序演化关系,提前预测接触趋势,为动作规划提供前瞻性信息。
自适应融合策略(决策模块)通过Latent Tactile Differential编码器,动态调整视觉与触觉的权重,使策略能够根据接触阶段自适应调整感知依赖。
反射式触觉控制器(执行模块)基于预测触觉与实时触觉反馈,在高频下输出修正动作,即时修正执行轨迹,显著提升操作稳定性与精度。

OmniVTA系统图
实验表明,OmniVTA框架在不同物体和接触模式下均表现出色,远超传统方法的鲁棒性和泛化能力。
模型学习到了可迁移的接触动态规律,能够根据预测的接触状态自适应调整视觉与触觉的权重,并在不同物体和工具下保持稳定表现。

这项技术展示了以“世界模型”为核心,以预测为先导、反馈为保障的技术路径,使机器人能够胜任精密装配、家居清洁与食材备制等任务。
本次它石联合多所顶尖科研机构发布的OmniVTA框架,不仅在学术研究方面有所突破,更具有深远的产业应用价值,将具身智能的应用能力提升至新的高度。
自适应融合策略(决策模块):引入 Latent Tactile Differential(LTD)编码器,对当前触觉与预测触觉之间的差异进行显式建模,从而提取接触动态变化的关键信号。在此基础上,结合门控(gating)机制对视觉与触觉模态进行动态加权,使策略能够根据接触阶段自适应调整感知依赖:在无接触或远接触阶段侧重视觉全局信息,在接触发生及演化阶段增强触觉主导作用。该模块有效避免了简单特征拼接带来的信息冲突问题,使动作决策更加精确且具备情境适应性。

OmniVTA慢策略:视触觉世界模型+自适应融合策略
反射式触觉控制器(执行模块):基于预测触觉与实时触觉反馈,在 60 Hz 高频下输出单步修正动作,对慢系统生成的动作序列进行连续闭环补偿。该控制器通过建模触觉误差(预测–观测差异)实现快速响应,可在接触扰动、物体偏移或摩擦变化等情况下即时修正执行轨迹,从而显著提升操作稳定性与精度。其引入使系统具备类似人类“触觉反射”的能力,能够有效弥补低频规划带来的滞后性。

基于触觉特征的反射式控制器
实操验证:从”机械记忆”到”理解接触”
实验数据表明,OmniVTA视触觉操作框架在不同物体、不同接触模式下均取得了最优性能。在位置变化、工具变化和外界扰动等情境中,展现出了远超传统方法的鲁棒性和泛化能力。


操作过程中实时扰动-恢复接触
更具深远意义的是,模型学习到了可迁移的接触动态规律。如下图所示,模型能根据预测的接触状态自适应调整视觉与触觉的权重,并在不同物体和工具下保持稳定表现。这表明机器人正在从“执行动作”走向“理解物理接触”,逐步具备类似人类的预测与反馈协同能力。

门控机制效果:触觉和视觉权重随操作过程的变化
可以看到,OmniVTA展示了一条清晰的技术路径:以“世界模型”为核心,以预测为先导、反馈为保障,最终使机器人能够真正胜任精密装配、家居清洁与食材备制等工业生产与日常生活中不可或缺的接触密集型(contact-rich)任务。本次它石联合多所顶尖科研机构发布的OmniVTA框架,不仅在学术研究方面有所突破,更具有深远的产业应用落地价值,将具身智能“干活”的能力提升至可落地、可泛化、可规模化的全新高度。
引用
[1] Wolpert, Daniel M., and J. Randall Flanagan. “Motor prediction.” Current biology 11.18 (2001): R729-R732.
转载
本文为量子位获授权转载,观点仅为原作者所有。

量子位的朋友们