探索下一代语言模型：LangFlow引领新范式挑战传统扩散算法

作者：世界网2026年4月29日科技2 阅读

研究团队成员包括：Yuxin Chen，现为伊利诺伊大学厄巴纳-香槟分校硕士一年级学生；Chumeng Liang 和 Hangke Sui 均为该校博士生；Ge Liu 则是该校计算机科学系的助理教授。Liu 实验室专注于扩散及流模型领域，并已发表了包括 Riemannian Consistency Model (RCM)、Statistical Flow Matching 等在内的多项成果，其中包括此次介绍的 LangFlow。

本次研究的主要论文标题为《LangFlow: Continuous Diffusion Matches Discrete in Language Modeling》
相关论文可以在 arxiv 上查阅（https://arxiv.org/abs/2604.11748）
Github 地址：https://github.com/nealchen2003/LangFlow
Huggingface 页面：https://huggingface.co/papers/2604.11748

“图像和视频生成中连续扩散模型的统治地位，为何在文本领域迟迟无法突破？”

当前主流的扩散语言模型（DLM）陷入了一种困境，即越接近自回归架构性能越好。然而，在追求这种效果时，研究者们转向了离散扩散，这反而导致了并行解码难题，并限制了它们原本应有的低延迟与多模态融合能力。

面对这一挑战，UIUC 的 Ge Liu 教授团队发布了一篇新论文《LangFlow: Continuous Flow Matching for Large Language Models》，重新回到传统的连续扩散架构。研究指出，文本处理中连续扩散的失败并非其固有缺陷，而是受限于训练和评估策略。通过系统优化，LangFlow 成功地在标准基准测试上实现了与离散扩散模型相当的表现。

该研究成果不仅打破了文字生成中的离散壁垒，还证明了保留扩散模型原生特性的连续架构同样具有竞争力，为探索低延迟、高可控的多模态统一架构提供了一条新的路径。

语言模型的发展方向

目前的大语言模型（如 ChatGPT 和 DeepSeek）主要基于自回归架构，即预测下一个词元。虽然这种架构已经取得了很大成功，但仍存在一些固有的限制：

1) 推理延迟：每次只能预测一个词元。

因此，总的推理时间等于输出的词元数乘以单步延迟。

对于自回归模型而言，单步延迟主要由从缓存读取之前的内容决定。因此，每一步只计算一个新词元的做法效率低下。

2) 控制性：提示词与其它信息处于同等地位，导致指令失效问题。

3) 模态局限性：自回归架构主要用于处理离散模态（如文本），而对于图像、视频等连续模态则需要额外的生成头来支持，不利于架构统一。

扩散语言模型简史

近年来有一种观点认为，扩散语言模型越接近自回归性能就越好。然而，传统的连续扩散被认为存在天然劣势；但这一观念正在被逐渐挑战和打破。

随着 Stable Diffusion 等生成模型的成功应用，扩散在图像和视频领域的统治地位已经确立。2022-2023 年间，人们开始尝试将这种技术应用于文本处理，期望解决上述三个问题：

1) 推理延迟：通过蒸馏为一步生成模型（如 Consistency Model），读取一次缓存就能输出多个词元，大大降低了推理延迟。

2) 控制性：扩散模型具备成熟的引导技术（Classifier Guidance 和 Classifier-Free Guidance 筹）可以强化指令跟随的效果。

3) 多模态支持：由于扩散在处理连续数据方面已经很成熟，将其应用于离散模态可以实现架构统一，并不会丢失任何信息。

尽管这一目标很有吸引力，但早期实验结果并不理想。随着模型规模的增长，性能差距进一步扩大。例如，参数量为 1B 的 Plaid 模型的性能甚至不及具有 100M 参数的自回归 Transformer。此外，一些扩散模型在没有条件输入的情况下生成连贯句子也十分困难。

面对传统扩散模型在语言任务中的局限性，研究社区开始转向一种“离散 Diffusion”，即从初始状态（全噪声）出发逐步减少噪声量，并引入了 Masked Diffusion Model（MDLM）。然而，这种方法同样遇到了并行解码的难题。

优化扩散模型的关键在于噪声调度策略。不同于图像处理中的均匀分布，研究团队发现 DLM 需要更加重视高噪声区域以获取有效信息。

在以往的工作中采用的标准噪声调度器并不适用于这种需求。

因此，该团队提出了一种新的调度方法，让噪声与信息增量相匹配。

理论上，信息量遵循 Gumbel 分布这一特点被用于设计更好的调度策略。

为了更精准地评估连续扩散模型的能力，研究引入了更为准确的测试标准。

自条件机制是关键部分之一，关闭它将对连续 DLM 不公平。

连续扩散模型的回归

此外，该团队还为 ODE 生成路径设计了一个新的 NLL 上界计算方法。

新的方法由三部分组成：从噪声中抽取轨迹起点的 NLL；ODE 对概率密度的影响；以及还原 token 的 NLL。最后一项是所有常数相互抵消后的总和。

下文说明具体做法。

更有效的训练：

刻画连续扩散的信息熵

这一新上界为连续 DLM 提供了更为可靠的 PPL 评估依据。

在语言建模方面，LangFlow 不仅在 LM1B 和 OWT 上的表现与离散扩散模型相当，在零样本迁移测试中也超过了 AR 基线。

模型采用双向 DiT 架构，参数量为 130M，并经过了 1M 步的训练。

在 LM1B 数据集上，LangFlow 的生成 PPL 达到 91.8，优于所有离散 DLM（Duo 最高为 97.6）。测试集上的表现也超过了 MDLM。在 OWT 测试中，差异仅为一个百分点左右。

在七个零样本迁移任务中，LangFlow 超过了 AR 基线三次，并且在 PubMed 和 Arxiv 等领域表现出色。

总结来看，LangFlow 证明了连续 DLM 具备与离散模型竞争的能力。未来语言模型的发展趋势将趋向于多种架构的协同合作，而不是单一范式的统治。

完整保留扩散模型核心特性的 LangFlow 不仅为后续研究奠定了基础，还指明了一条通往下一代低延迟、高可控性及多模态融合 AI 基础设施的道路。

更精准的测试：还原连续扩散的实力

关键指标解释

根据以往的 DLM 工作，该研究沿用以下两项指标（都是越低越好）：

Self-Conditioning

研究团队通过对比实验指出：关闭 Self-Conditioning 的对比对连续 DLM 是不公平的。

ODE 生成的 PPL 估计

研究团队还注意到：之前的工作的变分上界不适用于 LangFlow 所用的 ODE 生成。

准确的 PPL 度量是公平比较的前提。AR 逐词元计算似然；离散扩散用变分推导一个上界。在本研究中，团队为 LangFlow 的 ODE 生成路径推导了一个更适配的 NLL 上界，按序列长度平均并取指数后即为 PPL：

这个上界由三部分构成：第一项是从噪声中抽取轨迹起点的 NLL；第二项是 ODE 对概率密度的压缩或膨胀；第三项是从轨迹终点还原 token 的 NLL。最后的一项，是以上三项中的常数项相互抵消剩下的总和。

这个界完全适配 LangFlow 的 ODE 生成，为连续 DLM 的 PPL 评估提供了更可靠的理论基础。

多项基准全面追平：

语言建模与零样本迁移均进入第一梯队

连续扩散在 LM1B 和 OWT 的 PPL/Gen. PPL 上整体匹敌离散扩散，并取得扩散模型中最强的零样本迁移表现。

研究团队在 LM1B（句子级）和 OpenWebText（OWT，类似 GPT-2 语料）上评估 LangFlow。模型都是 130M 参数的双向 DiT，训练 1M 步。

语言建模

在 LM1B 上，LangFlow 生成 PPL 达 91.8，优于最强离散 DLM（Duo 97.6）6 分以上。测试集 PPL（31.7）超过所有均匀随机噪声的离散 DLM，与 Masked Diffusion 的 SOTA MDLM（31.0）持平。在 OWT 上，LangFlow（24.3）与 MDLM（23.2）差距仅在 1 左右。这是连续 DLM 首次在标准语言建模基准上追平离散 DLM。

零样本迁移

在 7 个零样本迁移测试中，LangFlow 在 3 个上超过 AR 基线，在 4 个上超过 MDLM。尤其在 Pubmed 和 Arxiv（充满结构化、专业术语）上，LangFlow 相对 AR 优势显著（36.45 vs 49.01，32.84 vs 41.73）。LangFlow 不仅放大了离散扩散对 AR 的相对优势，还在其弱势项目上补齐了短板。

总结：走向多架构协同的下一代语言模型

LangFlow 证明了连续 DLM 完全具备在标准基准上打平离散 DLM 的基础能力。然而，Diffusion 的长期价值并不在于与 AR 进行零和博弈，而在于作为 AR 架构的关键补充。在低延迟解码、细粒度指令控制以及原生多模态融合等 AR 存在固有局限的领域，连续 Diffusion 展现出了不可替代的天然优势。

未来的语言模型发展趋势正指向多种架构优势互补的组合，而非单一范式的垄断。与其将 Diffusion 强行 “改造” 成 AR 的离散生成模式，不如彻底释放其连续架构的原生潜力。

LangFlow 完整保留了扩散模型的核心特性，不仅为连续 DLM 的后续扩展提供了坚实的基线，更为构建下一代低延迟、高可控、多模态共生的 AI 基础设施确立了重要的底层路线。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

探索下一代语言模型：LangFlow引领新范式挑战传统扩散算法

作者：世界网2026年4月29日科技2 阅读

本次研究的主要论文标题为《LangFlow: Continuous Diffusion Matches Discrete in Language Modeling》
相关论文可以在 arxiv 上查阅（https://arxiv.org/abs/2604.11748）
Github 地址：https://github.com/nealchen2003/LangFlow
Huggingface 页面：https://huggingface.co/papers/2604.11748

“图像和视频生成中连续扩散模型的统治地位，为何在文本领域迟迟无法突破？”

语言模型的发展方向

目前的大语言模型（如 ChatGPT 和 DeepSeek）主要基于自回归架构，即预测下一个词元。虽然这种架构已经取得了很大成功，但仍存在一些固有的限制：

1) 推理延迟：每次只能预测一个词元。

因此，总的推理时间等于输出的词元数乘以单步延迟。

对于自回归模型而言，单步延迟主要由从缓存读取之前的内容决定。因此，每一步只计算一个新词元的做法效率低下。

2) 控制性：提示词与其它信息处于同等地位，导致指令失效问题。

3) 模态局限性：自回归架构主要用于处理离散模态（如文本），而对于图像、视频等连续模态则需要额外的生成头来支持，不利于架构统一。

扩散语言模型简史

近年来有一种观点认为，扩散语言模型越接近自回归性能就越好。然而，传统的连续扩散被认为存在天然劣势；但这一观念正在被逐渐挑战和打破。

1) 推理延迟：通过蒸馏为一步生成模型（如 Consistency Model），读取一次缓存就能输出多个词元，大大降低了推理延迟。

2) 控制性：扩散模型具备成熟的引导技术（Classifier Guidance 和 Classifier-Free Guidance 筹）可以强化指令跟随的效果。

3) 多模态支持：由于扩散在处理连续数据方面已经很成熟，将其应用于离散模态可以实现架构统一，并不会丢失任何信息。

优化扩散模型的关键在于噪声调度策略。不同于图像处理中的均匀分布，研究团队发现 DLM 需要更加重视高噪声区域以获取有效信息。

在以往的工作中采用的标准噪声调度器并不适用于这种需求。

因此，该团队提出了一种新的调度方法，让噪声与信息增量相匹配。

理论上，信息量遵循 Gumbel 分布这一特点被用于设计更好的调度策略。

为了更精准地评估连续扩散模型的能力，研究引入了更为准确的测试标准。

自条件机制是关键部分之一，关闭它将对连续 DLM 不公平。

连续扩散模型的回归

此外，该团队还为 ODE 生成路径设计了一个新的 NLL 上界计算方法。

新的方法由三部分组成：从噪声中抽取轨迹起点的 NLL；ODE 对概率密度的影响；以及还原 token 的 NLL。最后一项是所有常数相互抵消后的总和。

下文说明具体做法。

更有效的训练：

刻画连续扩散的信息熵

这一新上界为连续 DLM 提供了更为可靠的 PPL 评估依据。

在语言建模方面，LangFlow 不仅在 LM1B 和 OWT 上的表现与离散扩散模型相当，在零样本迁移测试中也超过了 AR 基线。

模型采用双向 DiT 架构，参数量为 130M，并经过了 1M 步的训练。

在七个零样本迁移任务中，LangFlow 超过了 AR 基线三次，并且在 PubMed 和 Arxiv 等领域表现出色。

总结来看，LangFlow 证明了连续 DLM 具备与离散模型竞争的能力。未来语言模型的发展趋势将趋向于多种架构的协同合作，而不是单一范式的统治。

完整保留扩散模型核心特性的 LangFlow 不仅为后续研究奠定了基础，还指明了一条通往下一代低延迟、高可控性及多模态融合 AI 基础设施的道路。

更精准的测试：还原连续扩散的实力

关键指标解释

根据以往的 DLM 工作，该研究沿用以下两项指标（都是越低越好）：

Self-Conditioning

研究团队通过对比实验指出：关闭 Self-Conditioning 的对比对连续 DLM 是不公平的。

ODE 生成的 PPL 估计

研究团队还注意到：之前的工作的变分上界不适用于 LangFlow 所用的 ODE 生成。

这个界完全适配 LangFlow 的 ODE 生成，为连续 DLM 的 PPL 评估提供了更可靠的理论基础。

多项基准全面追平：

语言建模与零样本迁移均进入第一梯队

连续扩散在 LM1B 和 OWT 的 PPL/Gen. PPL 上整体匹敌离散扩散，并取得扩散模型中最强的零样本迁移表现。

研究团队在 LM1B（句子级）和 OpenWebText（OWT，类似 GPT-2 语料）上评估 LangFlow。模型都是 130M 参数的双向 DiT，训练 1M 步。

语言建模

零样本迁移

总结：走向多架构协同的下一代语言模型

“”

探索下一代语言模型：LangFlow引领新范式挑战传统扩散算法

探索下一代语言模型：LangFlow引领新范式挑战传统扩散算法

相关文章

相关文章