
文章作者分别来自香港理工大学和四川大学。其中,第一作者江奕飏是该校的博士生,在李青教授和魏骁勇教授的指导下进行研究工作。
对听障人群而言,他们在获取信息、享受公共服务以及参与社会交流方面长期处于不利地位。主流渠道的信息传播通常依赖语音或文字,这使得那些依靠手语来表达自己的群体在教育、医疗等各个方面都面临更高的障碍。同时,在人工智能迅速改变内容制作和人机交互方式的今天,这一部分人群并未能充分受益于技术进步带来的便利。如何使AI更好地服务于所有人,特别是少数群体,已成为一个日益重要的议题。
在这样的背景下,手语翻译(SLT)的研究显得尤为关键。它不仅仅是解决一种多模态的任务,更是为听障人士提供更顺畅融入主流社会的途径,减少沟通障碍,并提升他们的信息获取能力和社交参与度。因此,手语翻译的意义远不止于将视频内容转化为文字,而是搭建起连接不同表达方式和社会环境之间的桥梁。
然而从技术角度看,手语翻译比想象中更为复杂。长期以来,许多方法假设手语视频中的片段可以直接对应到自然语言词汇上,只要实现了逐词匹配就能完成准确翻译。然而,在实际应用中这种假设并不总能成立。由于手语表达往往依赖于动作轨迹、空间位置以及上下文关系来构成意义,同一个手势在不同的情境下可能具有完全不同的含义。因此,这项研究提出:手语翻译本质上是跨模态推理问题,而不仅仅是简单的视频到文本映射。
针对上述挑战,研究团队开发了SignThought框架。该系统创新性地引入了一条有序的隐式思维链路,使得模型在生成译文前能逐步构建中间语义表示,并根据这些表示检索视频中的证据以完成更连贯、忠实的翻译。同时,论文还提出了一种“先规划再定位”的解码方式:首先确定要表达的内容,然后回到视频中寻找支持这一内容的具体片段。
目前,这项工作已被ACL 2026年会接受,并计划进行口头报告。

- 论文题目为《隐式思维链路下的手语翻译新范式》
- 论文地址:
- https://arxiv.org/abs/2604.15301
- 代码地址:
- https://github.com/fletcherjiang/SignThought
研究背景
近年来,gloss-free 手语翻译已经成为研究热点。这类方法旨在直接从手语视频生成自然语言句子,避免了中间标注的繁琐与昂贵。
然而实际操作中面临的主要挑战在于:手语的意义并非由单一手势决定,而是通过动作轨迹、空间位置以及上下文关系共同构建而成。比如,在描述“汽车”时,同样的手势在不同情况下可以表达出完全不同的含义,例如,“车辆从A点向B点移动并撞到了树上”,而不仅仅是“车停在树旁”。这意味着现有的gloss-free方法面临着关键瓶颈:模型需要同时处理语义决策和证据定位两大任务。

为了应对这一难题,论文中提出了一种新的跨模态推理框架。其核心在于显式地建立一个中间推理接口,使得手语翻译不仅仅是视频到文本的映射问题。
SignThought的整体架构包括三个主要部分:Sign Encoder负责将输入的手语视频转换为密集的时间证据特征;Latent Chain-of-Thought Thinking Module通过一组可学习的思想槽位逐步压缩长视频中的连续证据形成有序的隐式思想链路;Dual-Stream Decoder则先基于这些思想完成语义规划,再返回视频特征中进行细粒度定位生成翻译文本。
核心方法
论文提出的关键设计包括三个方面:首先,将隐式思维视为视觉证据与自然语言生成之间的中间接口;其次,通过“先规划后定位”的策略分离语义决策和证据检索过程以减少干扰;最后,这些思想不仅是内部状态,还作为可以追踪的锚点来提高翻译忠实度。

SignThought的推理流程:整个模型能够形成沿时间顺序推进且相对集中的思想-帧对齐机制。

具体来说,在思考模块中,模型首先利用带有因果约束的思想更新规则让早期的想法表达较粗粒度的意义,随后逐渐细化;接着通过结构化路由机制将不同时间段的视觉证据分配给不同的想法槽位。在解码阶段,则先查看最相关的思想,再根据其对应的时序先验回到视频中搜索相应证据。
除了创新方法本身外,这项工作还构建了一个新的大规模香港手语数据集LC-HKSLT,该数据集中包含从公开场景获取的手语翻译内容,并且只保留句子级监督信号而不引入GLOSS标注或词汇表。
数据集构建
数据集LC-HKSLT总计包括了1311小时的手语视频、432K片段,涵盖了14位手语使用者,词库规模达到125,833。整个数据集是在大规模真实场景中收集而来,并用于当前实验中的一个精心整理的30小时子集,以便与现有中文手语翻译基准保持更可比的评估设置。

LC-HKSLT的意义不仅在于其规模庞大,更重要的是它提供了一种更为真实的弱监督训练环境:模型接收的数据不是经过细致标注后的干净数据,而是接近实际使用场景的形式。这也正是在这样的条件下,显式的跨模态推理与证据组织能力变得至关重要。

论文在五个手语翻译基准测试中进行了实验,包括PHOENIX14T、CSL-Daily、How2Sign、OpenASL以及新提出的LC-HKSLT。结果显示,在所有数据集中,SignThought都取得了最佳的gloss-free BLEU-4和最高ROUGE分数。
实验结果

具体来说,在PHOENIX14T上取得BLEU-4为27.22/54.50 ROUGE;在CSL-Daily上的BLEU-4为23.92/50.99 ROUGE。而在更大规模的数据集上,提升更为显著:How2Sign的BLEU-4从之前的9.37提高到了13.39,OpenASL则从13.21上升到19.55。

在自建数据集LC-HKSLT上,模型同样表现出色。在公开设置下达到BLEU-4为21.15/47.87 ROUGE;进一步利用其余LC-HKSLT数据进行预训练并在30小时子集上微调后,性能提升至BLEU-4为30.22/60.01 ROUGE。
论文中的消融实验验证了这套设计的有效性。结果显示一旦移除隐式思考模块,性能下降最为明显;而去除因果思想更新、结构化路由、双流解码器或基于思想引导的先验注入都会不同程度地影响模型表现。

该研究的价值不仅在于提出了一种新的手语翻译模型,更重要的是它重新定义了这一任务:手语翻译不应仅被视为视频到文本映射的问题,而应视为跨模态推理问题。围绕这种认知,SignThought提供了一个相对完整的解决方案:通过建立隐式思维链路、解耦语义规划与证据检索,并结合大规模真实场景数据验证其有效性。
总结与展望
当然,目前模型中的“思考”过程仍然是隐式的,而非完全显化的人类语言推理。也就是说,这项工作还远未结束,但它向前迈出了一步:首次明确地引入了手语翻译中“先组织意义后生成”的中间步骤。
对于整个手语技术领域而言,这一方向非常值得期待。未来如果能将隐式规划与更显式的语义结构、文本说明或可控制推理机制结合起来,手语翻译模型或许不仅能提供更准确的输出,还能更好地解释其翻译逻辑。这可能成为下一阶段多模态理解和生成系统的重要突破口。
对于整个手语语言技术领域来说,这个方向很值得期待。未来如果进一步把 latent planning 与更显式的语义结构、文本 rationale 或可控推理机制结合起来,手语翻译模型或许不仅能给出更准确的输出,还能更好地解释「为什么这样翻译」。而这,也可能成为下一阶段多模态理解与生成系统的重要突破口。
