
华为CLI-Gym:环境互动任务的首个多数据规模扩展方案
面向Terminal-Bench交互任务的数据规模化生产管线首次公开发布!开源了一套完整的自动化数据构建算法构建了1655个高可靠CLI任务环境镜像通过291条轨迹数据实现了20%的解决率提升在Agentic Coding领域,基于SWE-bench的数据管线研究已取得显著进展。过去一年里,业界涌现了许多相关工作,如SWE-Gym、SWE-Smith和R2

面向Terminal-Bench交互任务的数据规模化生产管线首次公开发布!开源了一套完整的自动化数据构建算法构建了1655个高可靠CLI任务环境镜像通过291条轨迹数据实现了20%的解决率提升在Agentic Coding领域,基于SWE-bench的数据管线研究已取得显著进展。过去一年里,业界涌现了许多相关工作,如SWE-Gym、SWE-Smith和R2

谷歌前TPU员工创办的创业公司MatX正受到广泛关注,据传该公司比英伟达芯片更优秀。正是因为卡帕西(他同时也是MatX最新B轮融资的投资方之一)的推荐,这家公司才被更多人所知晓。卡帕西表示,参考英伟达4.6万亿美元市值,MatX正致力于解决当今最具挑战性和回报率最高的技术难题。MatX团队非常出色,我很荣幸能参与其中,并向他们祝贺获得的新一轮融资!除了卡帕

近年来,基于大模型的文本检索技术取得了显著进展,最新的领先技术(SOTA)中,LLM Embedding Model 的参数量通常超过70亿。虽然相关性搜索性能得到了提升,但部署成本也随之大幅增加。众所周知,LLM Embedding Model 使用对称双塔架构,其中查询端和文档端常常共享同一完整的大型语言模型(LLM)。然而,一个长期被忽视的问题是:在

硅谷的人工智能人才市场正经历着前所未有的复杂阶段,无论是招聘还是求职都变得比以往更加艰难。对于雇主而言,最普遍的感受是难以找到理想人选,并且有时候甚至连对方愿不愿意交流都很难保证。而对于已经在大型企业或研究机构工作的求职者来说,他们面临的挑战则表现为机会成本:虽然当前的工作看起来很不错,项目和团队都非常优秀,生活条件也挺好,但想到外面那些诱人的薪资待遇,会

在评估大语言模型(LLM)生成代码的能力时,一个日益凸显的问题浮现出来:当这些模型在 HumanEval 和 MBPP 等经典基准测试中取得近乎饱和的成绩时,我们究竟是在衡量其真实的泛化推理能力,还是仅仅检验它们对训练数据的记忆力?目前的代码基准正面临两大核心挑战:一是数据污染的风险,二是测试严谨性的不足。前者可能使评测退化为「开卷考试」,而后者常常导致一

4月21日晚,vivo发布了新一代旗舰手机vivo X200 Ultra和vivo X200s。vivo X200 Ultra作为一款全新的高端旗舰机,搭载了蔡司三大定焦大师镜头及蓝图影像双芯技术,实现了前所未有的影像创新突破。X200s则凭借轻薄直屏设计、卓越的相机配置和天玑9400+处理器性能体验,以及Orig

新智元报道曾经,硅谷是全球程序员的梦想之地:四点的冲浪、无限量的零食和静音的手机。然而到了2026年,这里却变成了世界上最昂贵的人力剥削场所。OpenAI与Anthropic的顶尖人才正在用健康乃至家庭作为代价,为AGI这个贪婪无底洞提供燃料。2026年2月8日,硅谷的秘密被Business Insider一举揭露。这篇报道迅速引发热议,标题中赫然出现了十

Anthropic 更新了 Claude Cowork 插件系统,并引入了一款名为「杀死」软件的新功能。当前,Claude 可以接入企业内部常用的工具,如 Slack、Salesforce 和 Excel 等。这些插件可以在 Cowork 以及任何基于 Claude Agent SDK 构建的系统中运行。所有用户体验的更新都将对全体 Cowork 用户开放

当AI接管你的手腕。在最近结束的马年春节联欢晚会上,陈小春、言承旭、罗嘉豪和易烊千玺共同演唱了歌曲《智造未来》,成为了当晚最具高科技元素的节目之一。话题如#春晚科技含量满满的歌曲#和#春晚智造未来科技感拉满#迅速登上微博热搜。舞台上,VR眼镜投射出虚实结合的画面,北斗导航线路在背景屏幕上流动,无人机群在空中盘旋……每一幕都彰显了中国智能制造的强大实力。在宏

机器之心编辑部新年的时光如同流水般匆匆逝去。在刚刚过去的春节假期中,AI 和机器人成为了人们热议的话题焦点。其中,在春晚节目中展示高动态和协同性的全自主集群控制技术的机器人大明星宇树一哥尤为引人注目。春晚之后,我们对宇树科技的产品发展历程和技术细节进行了详尽回顾,揭示了其如何逐步成为具身智能领域的领先者,并在行业内实现了断层式的超越。然而,在大家的目光都集

IBM 最近成为了人工智能领域的新受害者。在周一,IBM 股价单日跌幅达到 13.2%,收盘时每股价格为 223.35 美元,这是该公司自 2000 年以来最严重的单日下跌,并且本月内股价累计下滑了 25%。这场风波的起因是 AI 初创公司 Anthropic 发布了一篇博客文章,文中介绍了其 Claude Code 工具如何自动化地将 COBOL 代码进

在具身智能赛道上,「第一颗钉子」其实就在你的家中。作者|曹思颀当我们谈论机器人时,你会最先想到什么?近两年来,在全球范围内,许多顶尖的AI团队都在尝试制造一个像人类一样的机器人。然而,尽管这些高价的人形机器人在演示视频中能做出各种动作,却很难融入普通人的日常生活。工程师们手握最先进的AI技术,但至今还未找到现实世界中的第一颗钉子来敲打它。同时,在一个不太引

智东西作者 陈骏达编辑 漠影当大模型在推理、编程等领域不断刷新纪录时,一个新的问题也随之浮现:如何在提升模型能力的同时,控制算力和资源消耗?近期,蚂蚁集团inclusionAI团队发布了一项重要成果——百灵大模型家族的新一代开源万亿参数模型Ling-2.5-1T(即时模型)与Ring-2.5-1T(思考模型)。两款模型并非单纯通过增加参数量取胜,而是依靠共

又一位清华大学杰出校友加入OpenAI!最近,毕业于清华大学数学系的张鹏川研究员宣布离开Meta FAIR(现为Meta超级智能实验室),结束了他长达3.75年的职业生涯。张鹏川曾在SAMLlama项目中担任关键角色,并主导了多项核心工作。如今,他将加入OpenAI,在世界模拟与机器人学领域开展研究。在他的推特上,张鹏川表达了他对探索视觉感知、世界模型和机

语音情感识别(SER)过去一直遵循相同的模式:输入语音,输出情绪标签。这种做法在技术实现上是有效的,但在认知层面上却过于简化。在人际交流中,对情绪的判断从来不是简单的“标签选择”,而是一个基于证据整合的过程。人们会结合语调变化、音高波动、语速快慢、重音位置以及语义内容,并考虑说话人的身份特征来推断对方的情绪状态,比如愤怒或失落的原因。因此,一个核心问题被提

最近加入OpenAI的Peter Steinberger在接受采访时表示了自己的看法,让人颇感意外。在这番谈话中,他谈到了自己的创业经历、对OpenClaw的看法以及相关的滥用和安全问题,表现得十分坦率。他的态度非常直接,他说:“说实话,我平时很少看代码……大多数代码对我来说都太无趣了!”在整个访谈过程中,有几个观点尤其引人深思。以下是对这些关键点的整理—

新智元报道SSI-Bench是首个专注于评估模型在约束流形中空间推理能力的基准,强调真实结构和具体限制条件,通过排序任务来考察模型对三维几何与拓扑关系的理解程度,揭示了当前大模型在处理实际空间问题时严重依赖二维信息的情况,并且其表现远逊于人类。如果将一个在空间理解榜单中得分很高的多模态大型模型直接放置于现实世界环境中,它很可能会在看似简单的任务上遇到困难。

本文为网易智能《态度AGI》对话摘录。文章作者:杨霞清、袁宁在CES2026期间,笔者刚听完黄仁勋的演讲后遇到了吴军。那周,拉斯维加斯迎来了大约14.8万名来自世界各地的企业家、创业者、投资者以及分析师和记者等人士。人们在讨论AI带来的机遇时热情高涨,晚间的各种小型研讨会密集举行,大家积极地相互建立联系。然而,在这

新智元报道这篇文章描述了一场由AI发展引发的经济危机,其中人工智能取代了许多白领工作,导致消费和就业大幅下降。AI的快速发展加速了这一过程,而政府和社会制度却无法及时适应这种变化的速度。白领失业率上升以及可选消费减少引发了经济增长放缓。高收入人群受到冲击后,他们的消费急剧下滑。到2027年二季度,美国正式进入衰退期,初请失业金人数飙升至历史高位。AI的发展

新智元报道马斯克亲自为grok-image-video-720p这款视频模型站台,该模型在46万次盲测投票中获得第一名。xAI的这一「压箱底」之作,在基准测试上超越了谷歌Veo 3.1 Fast,并且使用成本更低。近日,AI视频领域再次迎来重大变化!xAI的Grok图像转视频模型(grok-image-video-720p)在「Image-to-Video