搜索: "混合专家模型"

共找到 2 篇相关文章

姚顺雨初试锋芒,腾讯AI迎来全新基石

姚顺雨初试锋芒,腾讯AI迎来全新基石

腾讯近日发布并开源了新一代大语言模型混元Hy3 preview,填补了4月在AI领域的关键空白。作为混元3.0的早期版本,这款混合专家模型结合了快慢思考模式,拥有总计295B个参数和21B个激活参数,并能支持长达256K的上下文长度。据腾讯介绍,这是迄今为止最智能的混元模型,在复杂推理、指令遵循、代码处理及智能体功能等方面实现了显著提升。上月,腾讯在其2025年度业绩公告中首次提及“混元3.0”,

科技2 阅读
交通大学推出JTok模块:在密集计算与混合专家模型之外的全新扩展方案,能耗降低三分之一

交通大学推出JTok模块:在密集计算与混合专家模型之外的全新扩展方案,能耗降低三分之一

最近的研究表明,通过改进模型架构可以显著提升大型语言模型的性能和效率。本文介绍了一项由交通大学团队开发的新技术——JTok-M。JTok-M是一种创新性的方法,它利用token-indexed参数来扩展模型容量,从而提高计算资源的有效利用率。传统的Scaling Law主要关注于两个方面:增加模型参数的数量(N)和使用更多的训练数据(D)。然而,这种方法在实际应用中面临着诸多挑战,如成本高昂、效率

科技8 阅读