
Haiku性能突飞猛进,借助Meta-Harness媲美Opus!
新智元报道未来某一天,AI智能体是否能够自主调整参数、修复错误呢?最近,斯坦福大学IRIS实验室的博士生Yoonho Lee与麻省理工学院和威斯康星大学的研究人员合作发表了一篇新论文,颠覆了传统的人工调优方法。该研究团队阵容强大,包括机器人学习领域的知名学者Chelsea Finn以及DSPy框架的主要作者Omar Khattab。过去的优化工作多集中在模型参数、训练数据和RLHF上。然而,Met
共找到 10 篇相关文章

新智元报道未来某一天,AI智能体是否能够自主调整参数、修复错误呢?最近,斯坦福大学IRIS实验室的博士生Yoonho Lee与麻省理工学院和威斯康星大学的研究人员合作发表了一篇新论文,颠覆了传统的人工调优方法。该研究团队阵容强大,包括机器人学习领域的知名学者Chelsea Finn以及DSPy框架的主要作者Omar Khattab。过去的优化工作多集中在模型参数、训练数据和RLHF上。然而,Met

凤凰网科技讯 3月31日,凤凰卫视在香港举办三十周年台庆的庆典,活动发布了多项重要合作。凤凰卫视执行副总裁兼运营总裁李奇与国内AI训练数据领域龙头企业——海天瑞声创始人、董事长贺琳出席仪式并交换文件,双方将携手深入挖掘海量音视频、文本及多语种、多模态内容,建设具备高知识密度和多元文化视角的高质量数据,为训练大模型逻辑推理、跨文化认知能力提供“黄金语料”。凤凰卫视三十周年台庆签约现场据凤凰卫视执行副

凤凰网科技讯 3月30日,智象未来(HiDream.ai)与诺亦腾机器人(Noitom Robotics)近日宣布正式达成战略合作。双方将结合多模态大模型的视频生成能力与真实动作捕捉基础设施,共同探索具身智能行业高质量训练数据的大规模生成模式。诺亦腾机器人创始人兼首席执行官戴若犁与智象未来创始人兼首席执行官梅涛共同出席了此次签约仪式。当前,具身智能产业正面临高质量多模态训练数据的获取瓶颈。相较于传

本文由智东西编辑整理,陈佳和程茜共同编辑完成。3月27日,据国外媒体报道,美国初创公司Kled AI正通过付费方式邀请普通用户为其收集AI训练数据。该平台自上线以来两个月内便吸引了超过20万名用户,每天产生的上传次数约为500万。最近,Kled AI获得了650万美元的融资,估值达到1.5亿美元。Kled AI平台收集的训练数据包括倒垃圾、路面坑洼、门口取餐等日常场景,并将其出售给机器人和自动驾驶

在“大模型预训练”的领域中,普遍的信条是,如果想让模型性能更佳,就需要输入更多、更新且质量更高的数据。然而,最近一篇来自阿里巴巴、上海交通大学和威斯康星大学麦迪逊分校等机构的研究成果,在Hugging Face Daily Paper上取得了月度最佳的成绩,这直接挑战了上述共识,即从质量较低的数据中动态筛选样本,也能在与高质量数据优先的训练方案竞争中胜出。这一发现之所以在社区中引起了轰动,不仅因为

据Torrentfreak报道,Meta等科技公司曾通过BitTorrent协议从安娜档案库这类盗版资源网站下载受版权保护的书籍,以支持人工智能模型训练。为了构建更强大的语言模型,在没有获得版权所有者许可的情况下,多家技术企业使用了大量受版权保护的内容作为训练数据。Facebook和Instagram的母公司Meta成为了这场集体诉讼中的被告之一。知名作家如理查德·卡德雷、萨拉·西尔弗曼及克里斯托

在本次演讲中,我们探讨了持续自我改进式AI的三个关键方面:数据、算法和计算量。这些方面的进步让AI系统能够超越人类创造者的极限。首先,我们展示了如何通过生成大量合成训练数据来提升模型性能。这证明即使质量较低的人类数据也可以被数量庞大的机器生成数据所替代或增强。其次,演讲介绍了持续自我改进的算法技术,如预算强制搜索等方法。这些策略能够让AI系统以超乎寻常的方式优化其运行方式和推理过程。再者,我们展示

撰文 | 常 笑设计 | 甄尤美当谈到实现安全无监督自动驾驶所需的数据量时,埃隆·马斯克曾提出需要100亿英里训练数据的观点,这表明行业早已不再仅仅关注算法竞赛,而是一场关于算力和数据规模的较量。根据中国汽车工业协会最新报告,在2025年前十一个月内,全国配备城市NOA功能的乘用车销量达到312.9万辆,占总上险量的15.1%,较2024年全年提升了5.6个百分点。预计到2030年,城市NOA将成

最近的研究表明,通过改进模型架构可以显著提升大型语言模型的性能和效率。本文介绍了一项由交通大学团队开发的新技术——JTok-M。JTok-M是一种创新性的方法,它利用token-indexed参数来扩展模型容量,从而提高计算资源的有效利用率。传统的Scaling Law主要关注于两个方面:增加模型参数的数量(N)和使用更多的训练数据(D)。然而,这种方法在实际应用中面临着诸多挑战,如成本高昂、效率

在评估大语言模型(LLM)生成代码的能力时,一个日益凸显的问题浮现出来:当这些模型在 HumanEval 和 MBPP 等经典基准测试中取得近乎饱和的成绩时,我们究竟是在衡量其真实的泛化推理能力,还是仅仅检验它们对训练数据的记忆力?目前的代码基准正面临两大核心挑战:一是数据污染的风险,二是测试严谨性的不足。前者可能使评测退化为「开卷考试」,而后者常常导致一