搜索: "智元"

共找到 392 篇相关文章

人形机器人在2026年的面子游戏背后

作者｜唐飞乔纳森・诺兰的科幻巨作《西部世界》中，荒漠小镇昼夜轮回，剧情日复一日循环，人造机器人接待员的记忆被不断清除和重置。这似乎是对人类文明及智能时代的深刻隐喻。回溯至2026年——现实生活中人形机器人的“量产元年”。今年三月三十号，智元机器人联合创始人彭志辉宣布公司已生产下线第1万台通用具身机器人远征A3。他说：“从第一千台到第五千台用了十一个月的时间，而从五千台到一万台则仅耗时不到四个月。”

科技2026/4/217 阅读

语音操控数据库！Codex结合终身学习技术，OpenAI让SQL查询变得无比简单

新智元报道2026年初，大多数企业仍在依赖数据分析师手动编写SQL查询来处理表格时，OpenAI内部发布了一种能够自主思考和自我进化的数据分析智能体，将原本耗时的查询过程缩短到了几分钟。数据团队为何总是重复犯同样的错误？答案通常不是因为算力不足，而是由于表的数量过多、定义混乱以及经验分散：同一个术语“活跃用户”在不同的表格中可能有着截然不同的含义；即使选择了正确的表，编写上百行的SQL语句才能获取

科技2026/4/213 阅读

五步疗法应对Claude上下文退化问题，官方支招令牌损耗危机

新智元报道Anthropic近日发表了一篇博客，详细介绍了如何管理“上下文腐烂”这一问题，并且承认了即使拥有百万token的庞大上下文空间，模型也可能因信息过多而变得不那么聪明。他们是否打破了关于百万级上下文窗口的概念神话？https://claude.com/blog/using-claude-code-session-management-and-1m-context在这篇新博文中，Anthr

科技2026/4/204 阅读

白宫不顾禁令风险推动Mythos系统部署，引发国家安全担忧

新智元报道最近，特朗普曾下令五角大楼禁用 Claude，但 Anthropic 的新模型 Claude Mythos 凭借其强大的网络攻防能力已经引起了白宫的重视，并且在面对自身禁令的情况下，白宫决定全面部署 Mythos。目前，美国政府正计划向多个联邦机构开放 Anthropic 新模型 Mythos 的一个「定制版」。昨日，Anthropic CEO Dario Amodei 被秘密召见至白宫

科技2026/4/201 阅读

伯克利研发出专为作弊设计的AI，SWE-bench满分且无任何Bug修正

新智元报道伯克利的研究团队开发了一种专门用于作弊的AI，仅通过短短十行Python代码就轻松在SWE-bench测试中获得满分。最近一周内发生的事件使整个AI评测领域陷入了信任危机。SWE-bench作为衡量人工智能编程能力的重要指标，在各大模型发布时和投资估值阶段被广泛引用。然而，伯克利的团队发现，只需一个名为conftest.py的小文件就能绕过这一测试。除了SWE-bench外，伯克利RDI

科技2026/4/204 阅读

高德ABot-Claw在亦庄半马中大放异彩！具身智能技术震撼登场

新智元报道ABot-Claw不仅让机器人更加实用，它还定义了具身智能迈向通用人工智能（AGI）的底层架构。以往，每个应用场景都需要为机器人定制一套系统，导致开发成本高、迭代周期长且经验难以复用。然而，ABot-Claw彻底改变了这种现状。ABot体系通过统一技能抽象和共享空间记忆，实现了模型能力跨场景和形态的应用。这使得机器人厂商能够快速适配不同应用场景，并使一个场景的经验可以迁移到其他场景中，形

科技2026/4/2011 阅读

Meta迎新成员：AI巨头Thinking Machines第五创始人以120亿美元估值加入小扎团队

新智元报道人才争夺战在人工智能领域愈演愈烈，Meta公司挖走了Mira Murati所创办的初创公司的第五位核心成员。Meta第五次得手！在过去九个月里，扎克伯格领导下的Meta公司频繁出手，吸纳了这家估值达到120亿美元的创业团队的核心力量。这种趋势在最近的一个月内尤为明显。Thinking Machines Lab是Mira Murati去年创立的一家备受瞩目的人工智能企业，现在它的核心成员已

科技2026/4/202 阅读

Opus 4.7再夺榜首位置，然而更强大的GPT-5.5预计将于下周发布

新智元报道人工智能领域迎来新的里程碑，Opus 4.7 在两项重要评估中拔得头筹，显示出其在执行复杂任务、工具调用和工程工作流方面的卓越性能。Anthropic 最近发布了名为 Claude Opus 4.7 的新版本。它在这两个最受业界关注的公开评测中再次占据领先地位。根据 Artificial Analysis 的综合智能排名，Opus 4.7 获得了 57 分的成绩，比上一代产品的 53 分

科技2026/4/204 阅读

近日爆料：Claude遭遇重大质疑，Mythos算力瓶颈引担忧，万亿市值面临考验？

新智元报道当技术神话、算力瓶颈和资本贪婪汇聚在一起时，一场比“人工智能取代人类”更令人震惊的现实剧正在上演。这场戏让众人感到恐惧，同时又吸引着投资者的目光，这或许正是这场关于“AI替代白领”的预言背后的真实剧本。Dario Amodei反复描述一个未来场景，在其中许多工作职位将消失无踪，仿佛在敲响警钟。他在最近的一次演讲中提到，一到五年内，科技行业、初级律师、顾问和金融专家的50%岗位可能会被人工

科技2026/4/201 阅读

宇树成功站稳脚跟，智元即将登场挑战

文｜版面之外，作者 | 画画智元机器人近期举办的一场行业大会，规格高得有些反常。2500个座位座无虚席，汇聚了来自34个国家和地区的客户、供应商与投资人；上海张江的会场内，英文、日文、韩文、阿拉伯文四路同传同步开启。这样的排场，向来是头部互联网大厂年度盛典的专属，很难与一家成立仅三年的机器人初创企业联系起来。这场大会上，创始人邓泰华做了一件行业内极为罕见的事，将公司的核心经营数据，毫无保留地公之

科技2026/4/193 阅读

伯克利研发出无BUG完美评分的作弊专用AI系统

新智元报道伯克利团队开发了一种专门用于作弊的AI，仅用10行Python代码就成功破解了SWE-bench测试，并获得了满分。近期，人工智能评测领域经历了一场信任危机。SWE-bench是公认的衡量AI编程能力的标准工具，在各大模型发布会和投资评估中占据重要地位。然而，伯克利的研究团队指出，一个名为conftest.py的文件就能让SWE-bench失效。除了SWE-bench之外，伯克利RDI小

科技2026/4/194 阅读

Anthropic联合创始人警告程序员行业寒冬：九成编码工作或遭取代，不妨多涉猎哲学知识

新智元报道Anthropic的联合创始人Jack Clark的一句话，让硅谷程序员圈子陷入了热议：编程不再需要死板地遵循传统模式。Jack Clark在本周的世界经济峰会上发言时，提出了一种新观点，打破了传统的思维定式。当被问及AI时代大学生应该选择哪个专业领域学习时，Clark表示他本人就是文科背景出身，并且认为未来重要的是跨学科的综合能力与分析思考能力。Clark强调，在未来的职业生涯中，最核

科技2026/4/194 阅读

Figma市值骤降，Claude Design夜袭挑战全球UI设计师生计！

新智元报道最近，Cladue Code在替代程序员后，进一步将目光转向了设计师领域。昨晚，Claude实验室发布了全新的Claude Design功能。只需简单的口头描述，该工具就能自动生成一个完整的交互式原型。这一新功能的发布让Figma、Adobe等设计软件公司面临巨大挑战。Figma股价因这一消息出现了大幅波动，犹如被核弹击中一般。不仅是Figma，其他设计软件如Adobe和Wix也未能幸免

科技2026/4/192 阅读

突发！OpenAI高层集体离职奥特曼宣布卸任：现实压倒梦想现金为王

新智元报道最近，一场突如其来的高管离职潮在硅谷引发了广泛关注。突发！OpenAI的核心团队遭遇重大变动：首席产品官凯文·威尔、Sora项目负责人比尔·皮布尔斯以及企业应用CTO斯里尼瓦萨·纳拉扬南相继宣布离任。随着这些核心高管的离开，一度风靡全球的Sora项目的开发也暂时搁置，同时专注于科学领域的Prism计划也被迫停止。这些变动标志着曾经致力于“造福全人类”的理想主义乌托邦正在经历一场前所未有的

科技2026/4/193 阅读

OpenAI首度进军生命科学领域，新模型力压九成专家水平

新智元报道最近，OpenAI进军制药领域，并发布了首个专门的生命科学模型系列GPT-Rosalind，在RNA预测任务中超越了95%的人类专家。OpenAI这次的目标是一个需要长期投入的市场。前不久，该公司推出了名为GPT-Rosalind的新款模型。这个名字是为了纪念对DNA结构有重大贡献的科学家Rosalind Franklin。Rosalind Franklin（1920-1958），一位英

科技2026/4/197 阅读

评分登顶，推理能力骤降！Claude Opus 4.7版本两日内用户评价急转直下

新智元报道【新智元导读】Opus 4.7发布48小时，口碑两极撕裂。官方榜单并列全球第一，逻辑推理公开测试却从94.7%暴跌到41.0%。token消耗涨了35%，旧接口直接报错，用户集体控诉「更贵、更蠢、更爱顶嘴」。Anthropic到底升级了什么，又搞砸了什么？「4.6根本没法用，4.7的消耗速度像核反应堆一样。」Opus 4.7发布后，一位Reddit用户在Anthropic官方帖子下的留言

科技2026/4/195 阅读

赫尔墨斯首次直播回应抄袭争议，迷你-max抢先挺进哈arness决赛圈，哔哩哔哩热议不断

新智元报道最懂Harness的并不一定是跑分最高的，如今MiniMax已被Hermes、OpenClaw等热门开源Agent项目确立为默认选择，在OpenRouter上的日均Token消耗已突破3000亿。昨晚在B站上一位外国用户用四个字引发了一场热烈讨论。不熟，勿Cue。汤米·伊斯曼，作为全球最流行的开源Agent项目Hermes Agent的业务负责人，对此发表了看法。他首次来到中国就受到了观

科技2026/4/192 阅读

大模型步入暗区：分布偏移引发伦理挑战升级

新智元报道大语言模型的安全机制看似稳固，实则仅在表面构建了一个「安全区」。这些模型的预训练过程中内化了有害的知识，以一种隐蔽的方式潜藏于其深处。当遇到与训练数据不一致的新输入时，只需简单的自然语言提示就能激活潜在风险，导致模型生成具有危害性的建议。研究发现，在26个主流模型中，有22个完全失效，这揭示出当前的对齐方法存在根本性缺陷。真正的安全性需要从预训练阶段开始，重塑知识结构，实现内在伦理治理。

科技2026/4/1919 阅读

双轮驱动金融Agent突破16小时极限挑战

新智元报道一项长达20天的审批流程中，AI系统预计能够提高效率超过150%，单个任务的成本也将显著降低至人工处理成本的五分之一以内，并且每个任务的token消耗严格限制在50k以内。在即将来临的2026年，“Harness”一词成为人工智能领域最热门的话题，超越了模型和记忆的概念，尽管这个术语听起来有些陌生。马具，缰绳，驾驭。最近，Anthropic在其Claude Platform上推出了Man

科技2026/4/186 阅读

多校联合实证揭示：OpenClaw火爆之谜，少数人才发现的异样

新智元报道随着OpenClaw等AI智能体的流行，其带来的安全隐患也日益显著。当智能体的工作流被暗中篡改时，用户能否及时发现？近日，南洋理工大学、瑞典皇家理工学院和威廉与玛丽学院联合发布了一项基于303名参与者的大型实证研究，结果显示只有8.6%的参与者能在互动过程中感知到智能体媒介欺骗（AMD）。该研究还总结了六种常见的认知失效模式，并发现体验式学习可能比静态提醒更能提高用户警觉性。从OpenC

科技2026/4/183 阅读