搜索: "JTok-M"

共找到 1 篇相关文章

交通大学推出JTok模块:在密集计算与混合专家模型之外的全新扩展方案,能耗降低三分之一

交通大学推出JTok模块:在密集计算与混合专家模型之外的全新扩展方案,能耗降低三分之一

最近的研究表明,通过改进模型架构可以显著提升大型语言模型的性能和效率。本文介绍了一项由交通大学团队开发的新技术——JTok-M。JTok-M是一种创新性的方法,它利用token-indexed参数来扩展模型容量,从而提高计算资源的有效利用率。传统的Scaling Law主要关注于两个方面:增加模型参数的数量(N)和使用更多的训练数据(D)。然而,这种方法在实际应用中面临着诸多挑战,如成本高昂、效率

科技6 阅读