
打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级
MicroCoder团队 投稿量子位 | 公众号 QbitAI新一代代码模型的训练动态已与旧模型截然不同,主流强化学习方法和数据集在其上几乎“失效”。微软亚洲研究院与剑桥大学、普林斯顿联合推出MicroCoder,从算法、数据、框架、训练经验四个维度全面升级,在最新代码测试集上取得明显提升,并从七个方面开源了34条训练洞察。背景:旧经验遇上新模型,为何几乎全部“失效”?强化学习正在成为代码大模型能
共找到 4 篇相关文章

MicroCoder团队 投稿量子位 | 公众号 QbitAI新一代代码模型的训练动态已与旧模型截然不同,主流强化学习方法和数据集在其上几乎“失效”。微软亚洲研究院与剑桥大学、普林斯顿联合推出MicroCoder,从算法、数据、框架、训练经验四个维度全面升级,在最新代码测试集上取得明显提升,并从七个方面开源了34条训练洞察。背景:旧经验遇上新模型,为何几乎全部“失效”?强化学习正在成为代码大模型能

机器之心编辑部OpenAI 推出了一项全新的竞赛:你准备好了吗?这次的挑战显得有些出人意料。参赛者需要在 FineWeb 数据集上尽可能减少验证损失,同时将模型及其训练代码的总大小控制在 16MB 之内,并且要在 8 张 H100 GPU 上于 10 分钟内完成训练。这种设定几乎堵住了所有通过堆砌参数和计算资源来解决问题的方法。剩下的,参赛者只能依靠巧妙的设计、极致的压缩技术、策略性的选择以及工程

本文的主要作者是王赞毅,他曾于西安交通大学取得学士学位,并现为加州大学圣迭戈分校(UCSD)电气与计算机工程系的一名硕士生。他的研究集中在视频理解以及生成式建模领域。这项工作是他实习期间,在国家电网思极AI实验室(SGIT AI Lab)完成的成果。计算机视觉长久以来一直执着于如何更有效地表征动态世界的复杂性,试图通过精心设计的各种编码器来压缩现实中的信息。然而,视频作为一种复杂的高维数据集,其内

Pantera Capital和富兰克林邓普顿数字资产部门已加入Sentient新推出的开源AI实验室Arena的首批参与名单。该测试环境旨在评估企业级工作流程中AI智能体的表现。据公告,Sentient在周五通过Cointelegraph宣布,Arena被定位为一个生产环境级别的基准测试平台,而非静态模型测试工具。除了固定数据集上的评分外,它还让智能体执行标准化的企业场景任务,如处理长篇文档、不