搜索: "成功率"

共找到 21 篇相关文章

AI成功率从20%飙到100%!只需一个Harness文件

AI成功率从20%飙到100%!只需一个Harness文件

新智元报道【新智元导读】Anthropic实锤:Claude裸跑模型,9美元全废;但是套上Harness花200美元效果直接起飞。AI效果不好?别再纠结换模型了!OpenAI和Anthropic都在用的Harness工程,一文讲透。最近,AI圈子里一个逃不开的话题就是Harness。甚至,连DeepSeek最近也在开始招聘Harness工程师。那么,到底什么是Harness?Harness,围绕A

科技1 阅读
AI成功率从20%飙到100%!只需一个Harness文件

AI成功率从20%飙到100%!只需一个Harness文件

新智元报道【新智元导读】Anthropic实锤:Claude裸跑模型,9美元全废;但是套上Harness花200美元效果直接起飞。AI效果不好?别再纠结换模型了!OpenAI和Anthropic都在用的Harness工程,一文讲透。最近,AI圈子里一个逃不开的话题就是Harness。甚至,连DeepSeek最近也在开始招聘Harness工程师。那么,到底什么是Harness?Harness,围绕A

科技1 阅读
华为超充上线智己汽车充电地图

华为超充上线智己汽车充电地图

IT之家 5 月 13 日消息,华为数字能源官方今日宣布,华为超充正式上线智己汽车充电地图。随后智己汽车官方表示,即日起,智己用户可通过 App、车机充电地图,在全国范围实时查看已上线华为超充的具体位置及充电桩运行状态。IT之家获悉,截至目前,智己充电地图已接入达 150w+ 根公共充电枪。据介绍,华为新一代全液冷超充终端最大功率 600kW;一次插枪充电成功率高达 99%,200-1000 伏充

科技2 阅读
AI测谎利器问世:Anthropic工具揭露千余“不良模型”秘密

AI测谎利器问世:Anthropic工具揭露千余“不良模型”秘密

新智元报道Anthropic最近取得了一项突破,让人工智能承认隐藏的行为特征。在一系列故意植入不当行为的模型中,IA辅助审计智能体以59%的成功率脱颖而出;甚至在那些被训练成拒绝认错的模型中,也有超过80%的比例被成功揭示了秘密。最近,Anthropic开展了一项奇特的研究项目。他们故意制造了大约700个存在问题的AI模型,包括后门植入、能力压制以及在回答时插入特定词汇的行为等。这些特性都是由研究

科技3 阅读
科技新宠Harness,李开复与陆奇纷纷投资布局

科技新宠Harness,李开复与陆奇纷纷投资布局

新智元报道养虾业长期面临一个棘手的问题:龙虾在执行超过一天的长时间任务时,成功率极低。然而,最近出现了一种名为Harness的新解决方案,有望改变这一现状。养殖虾类过程中最大的难题是成本高昂和任务不可靠性问题。将OpenClaw部署到需要连续运行超过24小时的任务中,往往难以达到预期效果。无论是因为资源耗尽导致任务未完成,还是某一步骤出现错误进而影响全局,结果都令人失望。Meta安全对齐总监Sum

科技2 阅读
全球首测启动:EverOS智能体记忆自进化新篇章

全球首测启动:EverOS智能体记忆自进化新篇章

机器之心发布EverMind 公司近期推出了EverOS,这是一个全新的AI记忆系统,它超越了现有产品的功能限制,为智能代理(Agent)提供了更强大的上下文理解和长期记忆能力。通过引入独特的Skills自进化机制和多模态检索技术,EverOS不仅提升了任务成功率,还显著压缩了执行路径长度。EverMind 的最新发布标志着AI从传统数据处理工具向具有持久记忆的数字伴侣转变的重要一步。这个系统的核

科技26 阅读
具身智能竞赛新趋势:通用型AI火爆背后的实质较量不再是模型比拼

具身智能竞赛新趋势:通用型AI火爆背后的实质较量不再是模型比拼

最近,一家名为 Generalist AI 的公司发布了他们的 GEN-1 模型,这在具身智能领域引起了轰动。该公司首席执行官佩特·弗洛伦斯甚至认为机器人技术即将迎来类似“ChatGPT时刻”的突破。根据 Generalist 官方资料,GEN-1 在多个任务上达到了99%的成功率,并且比以往快了三倍的执行速度。此外,它还具备处理意外情况的强大恢复能力。这些显著的特点表明具身基础模型首次接近了一个

科技8 阅读
超强AI Claude问世却被神秘封存!背后原因引人猜测

超强AI Claude问世却被神秘封存!背后原因引人猜测

最新的一项重大突破在人工智能领域诞生了,但普通用户恐怕无法接触。4月8日零点整,Anthropic采取了一项反常的举动,他们决定不公开自家超级模型Claude Mythos(神话),反而与苹果和谷歌等竞争对手联手,共同将其隐藏起来。它究竟有多强?在没有进行任何特定安全训练的情况下,该模型依靠逻辑能力的进步,在权威的工程难题测试中将解决复杂问题的成功率提高了近五成,并在科学界的极限挑战中获得94.6

科技2 阅读
独角兽新品展现惊人学习能力:一小时内掌握复杂任务,成功率达99%

独角兽新品展现惊人学习能力:一小时内掌握复杂任务,成功率达99%

克雷西 发自 凹非寺量子位 | 公众号 QbitAI最近,一款机器人新产品的出现让人惊叹不已,它不仅在工作效率上超越了以往的同类产品,还大大提升了整个行业对机器人的期待。著名的具身智能公司Generalist宣布推出其最新的研究成果——名为Gen-1的新模型。在处理像包装手机和折叠纸箱这样的精细任务时,Gen-1将成功率从原来的64%提升到了惊人的99%,几乎消除了传统意义上的手工作业缺陷。过去完

科技3 阅读
高精度机器人超越GPT-3:任务完成率达99%,展现灵活应变能力

高精度机器人超越GPT-3:任务完成率达99%,展现灵活应变能力

这家原本默默无闻的硅谷机器人 AI 公司,或许很快就会受到更多关注。今天,Generalist 正在尝试将大模型技术完全应用于机器人领域,并首次对外公布了其最新一代基础模型 GEN-1。效果相当惊人:来自官方账号比起前代产品 Gen-0 平均仅64%的成功率,GEN-1 在多项任务中已经达到了99%,包括折叠 T 恤和维护吸尘器等操作,能够连续运行数百次而无需人工干预。先看数据。现在的机器人不再是

科技4 阅读
Anthropic最新研究:AI可能面临前所未有的困境

Anthropic最新研究:AI可能面临前所未有的困境

AI有没有情绪?先别急着回答。在Claude Code社区中有一个广受欢迎的功能被称为PUA,它能够将用户的输入转换成带有PUA特征的话语,并将其重新提交给AI模型进行处理。即便任务本身没有变化,这一技巧似乎能够让AI在执行过程中表现出更高的效率和成功率。这引发了人们对于人工智能是否具备情感的疑问。最近的一项研究由Anthropic团队发布,证实了机器学习系统可以显示出某种形式的情感反应。然而这种

科技2 阅读
代码竞赛:AI遇挑战,难敌程序员的“屎山”困境

代码竞赛:AI遇挑战,难敌程序员的“屎山”困境

停止过分追求单次任务的成功率吧,现在是时候思考如何让人工智能学会为长远考虑编写程序了。夜深人静的工位上,程序员小李面对Claude刚完成的第三版代码感到十分沮丧:最初他的需求很简单:创建一个用户登录接口。AI在十分钟内完成了这项工作,并且运行正常。然而,在增加了验证码、三方登录、权限系统和多租户支持等功能后,到第五轮修改时,AI生成的代码已经变得混乱不堪。小李忍无可忍地重写了整个模块,边写边抱怨:

科技4 阅读
以色列防御体系遭遇挑战,无法拦截重型导弹袭击

以色列防御体系遭遇挑战,无法拦截重型导弹袭击

《商报》网站于3月22日报道称,自冲突爆发以来,伊朗持续向以色列发射导弹,没有停歇的迹象。21日晚,伊朗向以色列南部的迪莫纳和阿拉德两市发射了两枚弹道导弹。以色列方面表示,自冲突开始以来,以军已成功拦截了伊朗发射的400多枚导弹中的绝大多数,拦截成功率达到了92%。由于希蒙·佩雷斯内盖夫核研究中心靠近迪莫纳,导弹袭击引发了人们的担忧。不过,对于伊朗是否有意针对该设施以及是否成功击中目标,以色列军方

军事1 阅读
中科院团队研发SparseRL技术:实现深度强化学习自动优化CUDA代码性能

中科院团队研发SparseRL技术:实现深度强化学习自动优化CUDA代码性能

如何让人工智能不仅能够生成可执行的代码,还能优化代码的运行效率?这个问题长期以来一直困扰着研究者。最近,中国科学院计算技术研究所的一个团队提出了名为 SparseRL 的新框架,首次将深度强化学习应用于稀疏 CUDA 代码的生成任务中。简单来说,就是让 AI 学会根据稀疏矩阵的具体结构,自动生成最优化的 CUDA 实现代码。实验数据表明,在经典的 SpMV 任务上,该方法将编译成功率提高了 20%

科技6 阅读
AI差距何在?Anthropic报告解析使用秘籍

AI差距何在?Anthropic报告解析使用秘籍

本文由智东西编辑并发布,主要介绍了一篇由Anthropic制作的《Anthropic经济指数报告:学习曲线》。这份报告发布于美国时间3月24日,通过分析2026年2月Claude的使用情况,重点探讨了为什么一些用户比其他人更擅长使用AI。研究指出,使用Claude超过半年的用户,其对话成功率比新用户高出大约10%,并且这种差距不受任务类型、国家或所选模型等因素的影响。美国科技媒体Axios将这种现

科技8 阅读
阿丽娜战胜郑钦文 迈向迈阿密公开赛双冠荣耀

阿丽娜战胜郑钦文 迈向迈阿密公开赛双冠荣耀

星期二(3月24日),中国选手郑钦文在迈阿密网球公开赛的女单16强赛中,以3比6、4比6的成绩败给了白罗斯的头号种子选手阿丽娜·萨巴伦卡。在这项WTA1000级别的赛事中,郑钦文作为23号种子参赛,而阿丽娜则是赛会的头号种子。此前两人共交手过八次,阿丽娜赢得了其中的七场比赛。作为2024年巴黎奥运会女子单打冠军的郑钦文,在这场比赛中一发成功率较低,非受迫性失误较多,最终在1小时25分钟内输掉了比

体育3 阅读
顶尖发球大师:TDI数据揭秘 ATP最强发球者是谁

顶尖发球大师:TDI数据揭秘 ATP最强发球者是谁

对于钟爱网球的朋友们来说,比赛统计中常见的数据包括Ace球数量、双误次数以及一发和二发的成功率及得分比例等信息。然而这些传统统计数据只能简单地反映球员的表现水平,并不能深入解释他们为何表现出色。作为一名对网球有深厚兴趣的人士,我曾长期疑惑于上述问题的答案,直到最近研究了ATP与TDI联合推出的TDI评价系统后,才找到了解决问题的方法和答案。据ATP和TDI官方介绍,TDI评价体系旨在提供一个全面且

体育1 阅读
OpenClaw创始人推荐龙虾最优配置模型

OpenClaw创始人推荐龙虾最优配置模型

龙虾如今大受欢迎,人人都想尝鲜。但实际操作起来却会遇到第一个难题—— 到底哪个模型最适合OpenClaw呢? 知道大家着急,龙虾之父亲自来支招了:可以关注一下因吹斯汀的榜单。 这个名为PinchBench的榜单专门为龙虾而设,它从成功率、速度和价格等方面评估全球大模型对OpenClaw的适应性。(值得一提的是,这个榜单还会定期更新。) 尽管该榜单早在今年2月底就已出现,但最近却热度陡增——

AI6 阅读