搜索: "扩展方案"

共找到 2 篇相关文章

交通大学推出JTok模块:在密集计算与混合专家模型之外的全新扩展方案,能耗降低三分之一

交通大学推出JTok模块:在密集计算与混合专家模型之外的全新扩展方案,能耗降低三分之一

最近的研究表明,通过改进模型架构可以显著提升大型语言模型的性能和效率。本文介绍了一项由交通大学团队开发的新技术——JTok-M。JTok-M是一种创新性的方法,它利用token-indexed参数来扩展模型容量,从而提高计算资源的有效利用率。传统的Scaling Law主要关注于两个方面:增加模型参数的数量(N)和使用更多的训练数据(D)。然而,这种方法在实际应用中面临着诸多挑战,如成本高昂、效率

科技6 阅读
华为CLI-Gym:环境互动任务的首个多数据规模扩展方案

华为CLI-Gym:环境互动任务的首个多数据规模扩展方案

面向Terminal-Bench交互任务的数据规模化生产管线首次公开发布!开源了一套完整的自动化数据构建算法构建了1655个高可靠CLI任务环境镜像通过291条轨迹数据实现了20%的解决率提升在Agentic Coding领域,基于SWE-bench的数据管线研究已取得显著进展。过去一年里,业界涌现了许多相关工作,如SWE-Gym、SWE-Smith和R2

科技10 阅读