
华为诺亚研究团队教授扩散模型精准聚焦关键技术点
机器之心编辑部近年来,扩散语言模型(Diffusion LLM)一直是讨论的热点。相较于传统的自回归模型,扩散模型在生成文本时更为灵活,更能支持并行处理。然而,尽管这条路充满潜力,但要真正提升效果却并非易事。最近,华为诺亚方舟实验室发布了一项关于扩散模型训练中“默认设置”的研究。这项研究的标题为《Mask Is What DLLM Needs: A Masked Data Training Par
科技2 阅读
共找到 2 篇相关文章

机器之心编辑部近年来,扩散语言模型(Diffusion LLM)一直是讨论的热点。相较于传统的自回归模型,扩散模型在生成文本时更为灵活,更能支持并行处理。然而,尽管这条路充满潜力,但要真正提升效果却并非易事。最近,华为诺亚方舟实验室发布了一项关于扩散模型训练中“默认设置”的研究。这项研究的标题为《Mask Is What DLLM Needs: A Masked Data Training Par

目前,测试时扩展已成为提升模型推断能力的重要途径。在这个领域内,块扩散语言模型(BDLMs)因为其独特的并行解码特性,被认为是自回归模型效率的强有力竞争者。然而,现有的 BDLMs 在处理长链推理任务时面临一种困境:它们必须在速度和准确性之间做出选择。大块解码虽然速度快,但在复杂情境下容易出错;小块则能保证准确度,但会牺牲解码效率,失去并行计算的优势。此外,当前的解码策略(例如固定置信度)无法应对