
刘尚格是南京大学的一名硕士生,在本研究中担任第一作者;澳大利亚伍伦贡大学的Lei Wang教授、新加坡南洋理工大学的Dacheng Tao教授以及南京大学的高阳教授等,共同参与了这项工作;而该文的通讯作者则是南京大学副教授李文斌。
在当前的大模型环境下,微调已成为使基础模型适应特定任务的一项标准操作。然而,当面对多个已经微调好的专家模型时,如何将它们的能力合并到单一模型中,则成为了新的挑战。传统的联合训练方法不仅需要重新收集历史数据,还会带来巨大的计算资源消耗。
在不进行额外训练的情况下,怎样使一个模型能够同时掌握多种新技能?
近年来,“任务算术”作为一种高效的模型组合策略崭露头角。它能够在避免昂贵的联合训练的前提下,通过简单的代数操作来实现不同模型能力的合并及特定知识的消除。
尽管“任务算术”在实践中取得了显著成效,但其背后的理论解释却一直缺乏深入探讨。此前的研究曾提出“权重解耦”的概念,并认为当不同任务的学习过程互不干扰时,“任务算术”就能顺利进行。然而,这更多是对理想结果的一种描述性表述:究竟是什么特性让这些模型能够实现这种相互独立?
为了解答这一核心问题,来自南京大学、伍伦贡大学和南洋理工大学的研究团队试图建立一个更为基础的理论框架来解释“任务算术”。他们提出了一种名为“任务特征特化”的理想属性,并基于此推导出一种可操作性的几何约束方法——OrthoReg。仅需在微调阶段引入一项简单的正则化项,就能显著改善多种基线方法在模型合并中的表现。
目前,该论文已被计算机视觉领域的顶级会议CVPR 2026接收,并被评为口头报告(Oral)作品。相关代码、预训练权重和数据集均已全面开源供学术界使用。

- 研究指出,在大模型时代,“任务算术”作为一种高效的技术手段,正逐渐成为主流。然而,其背后的理论机制至今仍不明确。“任务特征特化”的提出填补了这一空白,并为后续研究提供了重要的方法论支持。
- 为了更好地理解这项工作,我们首先回顾一下“任务算术”。
- 在2023年的NeurIPS会议上,一项重要研究成果(Tangent Task Arithmetic, TTA)提出了“权重解耦”的概念。该理论认为,在理想状态下,不同任务的模型更新过程互不干扰时,“任务算术”就能成功进行。
- 然而,这又引出了一个更深层次的问题:究竟是什么特性能使得模型在训练过程中实现这种权重的独立?我们如何主动设计出能够完美解耦的任务向量?
为了探究这一核心问题,本文首先构建了一个理想化的理论模型,并提出了“任务特征特化”(Task-Feature Specialization, TFS)的概念。
简单来说,“TFS”的假设认为,在一个理想的预训练模型中,处理不同任务时能够智能地分离出不同的内部特征。例如,识别汽车和手写数字的特征在模型内部是相互独立的。


文章进一步证明了在NTK线性化假设下,“TFS”是实现“权重解耦”的充分条件(见论文Theorem 1),这意味着如果模型能够做到特征特化,则自然会达成权重解耦的效果,从而保证不同任务向量合并时不会产生破坏性干扰。
“TFS”还会自然推导出一个可观测的几何结论:“权重正交性”。这表明正交性可以被视为底层特征分离在几何上的外显表现。具体而言,具备“TFS”属性的模型,其权重矩阵会呈现出统计意义上的块正交或列正交结构。
通过上述分析,“任务算术”的功能特性与几何属性之间的联系得以揭示(见图),为后续方法设计提供了理论指导。
此外,在预训练的CLIP模型中,其核心计算层(如Transformer Block中的投影层)权重向量夹角呈现出接近90度的趋势,这进一步验证了上述理论假设的有效性(见图)。
在实际应用层面,“OrthoReg”正则化方法通过简单的几何约束显著提升了多种模型合并技术的性能。相比传统的“TTA”,这种方法不仅在计算成本上具有明显优势,还能跨不同微调范式带来一致且显著的改进效果。
实验结果表明,在一系列图像分类数据集上的测试中,“OrthoReg”无论是在全参数微调、切空间微调还是参数高效微调情况下均表现出色。尤其是在ViT-L-14模型上,其性能提升尤为明显(见图)。
- 此外,通过计算不同任务向量之间的余弦相似度,“OrthoReg”方法能够有效减少任务间特征的耦合现象,进一步验证了理论分析的有效性(见图)。
- 总而言之,这项研究不仅为“任务算术”的有效性提供了一个全新的解释视角,并且通过引入轻量级的方法——OrthoReg极大地提升了模型合并技术的实际应用价值。
未来的研究将探索更多样化和精细化的正交性约束策略,在更复杂的多任务场景中实现更加精确的权重解耦。同时,这一基于几何视角的思路也可能在未来的大规模语言及多模态大模型的知识编辑与持续学习任务中发挥重要作用,开启新的研究方向。

该论文从一个根本问题出发——“任务算术”为何有效?最终通过一条清晰的因果链条:任务特征特化是权重解耦的充分条件,而权重向量正交性则是这一特性在几何层面的表现形式,来解答了这个问题。
更重要的是,上述理论洞见直接转化为实际应用价值。由于“TFS”本身是一个抽象且难以直接约束的功能属性,研究团队另辟蹊径,转而去约束其几何推论即正交性。由此提出的OrthoReg方法极其轻量:一行公式,一个超参,几乎不需要任何模型结构或合并算法的修改即可实现跨模型规模和微调范式的性能增益。

未来的研究将进一步探索更细致、多样化的正交性约束形式,以期在更为复杂的多任务场景下实现更加精确的权重解耦。同时,这种基于几何视角的方法有望在未来的大规模语言及多模态大模型的知识编辑与持续学习任务中发挥重要作用,并可能引发更多新的研究方向。
现实挑战与方法:OrthoReg 极简正交正则化


在模型合并领域,现有的解决方案大致可分为合并中(During-merging)和合并前(Pre-merging)两类。前者试图在合并阶段设计复杂的算法来消除冲突,而本文的思路则属于Pre-merging 方法:既然无法直接保证功能的绝对特化(TFS),我们不妨退而求其次,在微调阶段主动去约束它的几何推论 —— 正交性,从而从源头上打造出「天生适合合并」的模型。




图 - OrthoReg ⽅法概览图

与现有方法的联系:
此前 TTA (Tangent Task Arithmetic) 方法通过在切空间微调,隐式地利用了模型的 NTK 局部性来促进任务向量的正交。然而,TTA 依赖于极其昂贵的雅可比矩阵计算,导致显存和时间开销大幅增加。相比之下,OrthoReg 通过正则化显式约束正交性,不仅在理论机制上与 TTA 殊途同归,而且计算成本极低,几乎不增加额外的训练负担。
实验验证:更正交的向量,更优的合并
文章在 8 个多领域的图像分类数据集上,对多种视觉 Transformer(ViT-B-32、ViT-B-16、ViT-L-14)进行了广泛的评估。
任务加法(Task Addition)
在将 8 个任务的模型合并为一个单一模型的测试中,OrthoReg 展现出了极强的通用性。无论是应用于全参数微调(Non-lin. FT)、切空间微调(TTA),还是参数高效微调(ATT-FT, LoRA),OrthoReg 均能带来一致且显著的性能提升。

图 - Task Addition 实验结果
例如,在 ViT-L-14 模型上,OrthoReg 将标准全参数微调的平均绝对准确率大幅提升了 4.16 个百分点(从 84.07% 提升至 88.23%);而 ATT-FT 结合 OrthoReg 更是达到了 90.41% 的准确率,创下了该基准下的新高。
特别地,在衡量任务干扰程度的归一化准确率(Norm.Acc.)指标上,ATT-FT 结合 OrthoReg 达到了 100.05%。这意味着合并后的多任务模型,其平均性能已经完全媲美甚至微超 8 个独立微调的专家模型,在功能层面上无限逼近了「零干扰」的理想解耦状态。
任务消除(Task Negation)


图 - Task Negation 实验结果
可视化:揭示任务向量的几何关系
为了直观验证理论,文章也计算了不同任务向量之间的余弦相似度。如下图所示,基线方法(上排)生成的任务向量之间存在明显的非对角线相关性(亮色色块),说明常规微调容易导致任务间特征耦合。而引入 OrthoReg 后(下排),热力图的非对角线区域明显变暗。这提供了直接的经验证据:OrthoReg 确实通过几何约束,促使模型学习到了更加正交、解耦的任务向量。

图 - 任务向量余弦相似度热⼒图对⽐(ViT-B-16)
总结和展望
总而言之,这篇论文为「任务算术」这一模型合并技术提供了另一个视角的理论分析。
本文从一个根本性问题出发:任务算术为什么能有效?最终给出了一条清晰的因果链:任务特征特化(TFS)是权重解耦的充分条件,而权重向量正交性(WVO)则是 TFS 在几何层面可观测的外在印记。
更重要的是,这一理论洞见直接转化为了实践价值。由于 TFS 本身是一个抽象且难以直接约束的功能属性,研究团队另辟蹊径,转而去约束其几何推论即正交性。由此提出的 OrthoReg 正则化方法极其轻量:一行公式,一个超参,即插即用,无需修改任何模型结构或合并算法,却能跨模型规模、跨微调范式地带来一致的性能增益。
未来,研究团队计划探索更多样化、更细粒度的正交性约束形式,以期在更复杂的多任务场景下实现更精准的权重解耦。同时,这种基于几何视角的解耦思想,也有望在未来推广至更大规模的语言模型和多模态大模型的知识编辑与持续学习任务中,激发更多极具潜力的研究方向。
