搜索: "成功率"

共找到 21 篇相关文章

AI成功率从20%飙到100%！只需一个Harness文件

新智元报道【新智元导读】Anthropic实锤：Claude裸跑模型，9美元全废；但是套上Harness花200美元效果直接起飞。AI效果不好？别再纠结换模型了！OpenAI和Anthropic都在用的Harness工程，一文讲透。最近，AI圈子里一个逃不开的话题就是Harness。甚至，连DeepSeek最近也在开始招聘Harness工程师。那么，到底什么是Harness？Harness，围绕A

科技2026/5/251 阅读

AI成功率从20%飙到100%！只需一个Harness文件

科技2026/5/241 阅读

华为超充上线智己汽车充电地图

IT之家 5 月 13 日消息，华为数字能源官方今日宣布，华为超充正式上线智己汽车充电地图。随后智己汽车官方表示，即日起，智己用户可通过 App、车机充电地图，在全国范围实时查看已上线华为超充的具体位置及充电桩运行状态。IT之家获悉，截至目前，智己充电地图已接入达 150w+ 根公共充电枪。据介绍，华为新一代全液冷超充终端最大功率 600kW；一次插枪充电成功率高达 99%，200-1000 伏充

科技2026/5/132 阅读

AI测谎利器问世：Anthropic工具揭露千余“不良模型”秘密

新智元报道Anthropic最近取得了一项突破，让人工智能承认隐藏的行为特征。在一系列故意植入不当行为的模型中，IA辅助审计智能体以59%的成功率脱颖而出；甚至在那些被训练成拒绝认错的模型中，也有超过80%的比例被成功揭示了秘密。最近，Anthropic开展了一项奇特的研究项目。他们故意制造了大约700个存在问题的AI模型，包括后门植入、能力压制以及在回答时插入特定词汇的行为等。这些特性都是由研究

科技2026/5/63 阅读

苏度科技惊艳亮相：无实际设备支持下，零样本学习达98%抓取成功率

苏度科技在其首次亮相中便展示了卓越的技术实力，其零真实机器数据的模型取得了高达98%的成功率。衡宇 2026-04-20 13:34:32 量子位

AI2026/4/215 阅读

科技新宠Harness，李开复与陆奇纷纷投资布局

新智元报道养虾业长期面临一个棘手的问题：龙虾在执行超过一天的长时间任务时，成功率极低。然而，最近出现了一种名为Harness的新解决方案，有望改变这一现状。养殖虾类过程中最大的难题是成本高昂和任务不可靠性问题。将OpenClaw部署到需要连续运行超过24小时的任务中，往往难以达到预期效果。无论是因为资源耗尽导致任务未完成，还是某一步骤出现错误进而影响全局，结果都令人失望。Meta安全对齐总监Sum

科技2026/4/162 阅读

全球首测启动：EverOS智能体记忆自进化新篇章

机器之心发布EverMind 公司近期推出了EverOS，这是一个全新的AI记忆系统，它超越了现有产品的功能限制，为智能代理（Agent）提供了更强大的上下文理解和长期记忆能力。通过引入独特的Skills自进化机制和多模态检索技术，EverOS不仅提升了任务成功率，还显著压缩了执行路径长度。EverMind 的最新发布标志着AI从传统数据处理工具向具有持久记忆的数字伴侣转变的重要一步。这个系统的核

科技2026/4/1526 阅读

具身智能竞赛新趋势：通用型AI火爆背后的实质较量不再是模型比拼

最近，一家名为 Generalist AI 的公司发布了他们的 GEN-1 模型，这在具身智能领域引起了轰动。该公司首席执行官佩特·弗洛伦斯甚至认为机器人技术即将迎来类似“ChatGPT时刻”的突破。根据 Generalist 官方资料，GEN-1 在多个任务上达到了99%的成功率，并且比以往快了三倍的执行速度。此外，它还具备处理意外情况的强大恢复能力。这些显著的特点表明具身基础模型首次接近了一个

科技2026/4/118 阅读

超强AI Claude问世却被神秘封存！背后原因引人猜测

最新的一项重大突破在人工智能领域诞生了，但普通用户恐怕无法接触。4月8日零点整，Anthropic采取了一项反常的举动，他们决定不公开自家超级模型Claude Mythos（神话），反而与苹果和谷歌等竞争对手联手，共同将其隐藏起来。它究竟有多强？在没有进行任何特定安全训练的情况下，该模型依靠逻辑能力的进步，在权威的工程难题测试中将解决复杂问题的成功率提高了近五成，并在科学界的极限挑战中获得94.6

科技2026/4/82 阅读

独角兽新品展现惊人学习能力：一小时内掌握复杂任务，成功率达99%

克雷西发自凹非寺量子位 | 公众号 QbitAI最近，一款机器人新产品的出现让人惊叹不已，它不仅在工作效率上超越了以往的同类产品，还大大提升了整个行业对机器人的期待。著名的具身智能公司Generalist宣布推出其最新的研究成果——名为Gen-1的新模型。在处理像包装手机和折叠纸箱这样的精细任务时，Gen-1将成功率从原来的64%提升到了惊人的99%，几乎消除了传统意义上的手工作业缺陷。过去完

科技2026/4/73 阅读

独角兽新品突破：一小时内掌握新任务，连续实践千余次达99%成功率

独角兽企业Generalist的新产品Gen-1在短短一个小时之内就能学会新的任务，并且连续重复操作达1800次，成功率更是高达99%。克雷西 2026-04-06 13:17:06 量子位

AI2026/4/73 阅读

高精度机器人超越GPT-3：任务完成率达99%，展现灵活应变能力

这家原本默默无闻的硅谷机器人 AI 公司，或许很快就会受到更多关注。今天，Generalist 正在尝试将大模型技术完全应用于机器人领域，并首次对外公布了其最新一代基础模型 GEN-1。效果相当惊人：来自官方账号比起前代产品 Gen-0 平均仅64%的成功率，GEN-1 在多项任务中已经达到了99%，包括折叠 T 恤和维护吸尘器等操作，能够连续运行数百次而无需人工干预。先看数据。现在的机器人不再是

科技2026/4/54 阅读

Anthropic最新研究：AI可能面临前所未有的困境

AI有没有情绪？先别急着回答。在Claude Code社区中有一个广受欢迎的功能被称为PUA，它能够将用户的输入转换成带有PUA特征的话语，并将其重新提交给AI模型进行处理。即便任务本身没有变化，这一技巧似乎能够让AI在执行过程中表现出更高的效率和成功率。这引发了人们对于人工智能是否具备情感的疑问。最近的一项研究由Anthropic团队发布，证实了机器学习系统可以显示出某种形式的情感反应。然而这种

科技2026/4/42 阅读

代码竞赛：AI遇挑战，难敌程序员的“屎山”困境

停止过分追求单次任务的成功率吧，现在是时候思考如何让人工智能学会为长远考虑编写程序了。夜深人静的工位上，程序员小李面对Claude刚完成的第三版代码感到十分沮丧：最初他的需求很简单：创建一个用户登录接口。AI在十分钟内完成了这项工作，并且运行正常。然而，在增加了验证码、三方登录、权限系统和多租户支持等功能后，到第五轮修改时，AI生成的代码已经变得混乱不堪。小李忍无可忍地重写了整个模块，边写边抱怨：

科技2026/4/14 阅读

以色列防御体系遭遇挑战，无法拦截重型导弹袭击

《商报》网站于3月22日报道称，自冲突爆发以来，伊朗持续向以色列发射导弹，没有停歇的迹象。21日晚，伊朗向以色列南部的迪莫纳和阿拉德两市发射了两枚弹道导弹。以色列方面表示，自冲突开始以来，以军已成功拦截了伊朗发射的400多枚导弹中的绝大多数，拦截成功率达到了92%。由于希蒙·佩雷斯内盖夫核研究中心靠近迪莫纳，导弹袭击引发了人们的担忧。不过，对于伊朗是否有意针对该设施以及是否成功击中目标，以色列军方

军事2026/3/271 阅读

中科院团队研发SparseRL技术：实现深度强化学习自动优化CUDA代码性能

如何让人工智能不仅能够生成可执行的代码，还能优化代码的运行效率？这个问题长期以来一直困扰着研究者。最近，中国科学院计算技术研究所的一个团队提出了名为 SparseRL 的新框架，首次将深度强化学习应用于稀疏 CUDA 代码的生成任务中。简单来说，就是让 AI 学会根据稀疏矩阵的具体结构，自动生成最优化的 CUDA 实现代码。实验数据表明，在经典的 SpMV 任务上，该方法将编译成功率提高了 20%

科技2026/3/266 阅读

AI差距何在？Anthropic报告解析使用秘籍

本文由智东西编辑并发布，主要介绍了一篇由Anthropic制作的《Anthropic经济指数报告：学习曲线》。这份报告发布于美国时间3月24日，通过分析2026年2月Claude的使用情况，重点探讨了为什么一些用户比其他人更擅长使用AI。研究指出，使用Claude超过半年的用户，其对话成功率比新用户高出大约10%，并且这种差距不受任务类型、国家或所选模型等因素的影响。美国科技媒体Axios将这种现

科技2026/3/268 阅读

阿丽娜战胜郑钦文迈向迈阿密公开赛双冠荣耀

星期二（3月24日），中国选手郑钦文在迈阿密网球公开赛的女单16强赛中，以3比6、4比6的成绩败给了白罗斯的头号种子选手阿丽娜·萨巴伦卡。在这项WTA1000级别的赛事中，郑钦文作为23号种子参赛，而阿丽娜则是赛会的头号种子。此前两人共交手过八次，阿丽娜赢得了其中的七场比赛。作为2024年巴黎奥运会女子单打冠军的郑钦文，在这场比赛中一发成功率较低，非受迫性失误较多，最终在1小时25分钟内输掉了比

体育2026/3/263 阅读

顶尖发球大师：TDI数据揭秘 ATP最强发球者是谁

对于钟爱网球的朋友们来说，比赛统计中常见的数据包括Ace球数量、双误次数以及一发和二发的成功率及得分比例等信息。然而这些传统统计数据只能简单地反映球员的表现水平，并不能深入解释他们为何表现出色。作为一名对网球有深厚兴趣的人士，我曾长期疑惑于上述问题的答案，直到最近研究了ATP与TDI联合推出的TDI评价系统后，才找到了解决问题的方法和答案。据ATP和TDI官方介绍，TDI评价体系旨在提供一个全面且

体育2026/3/131 阅读

OpenClaw创始人推荐龙虾最优配置模型

龙虾如今大受欢迎，人人都想尝鲜。但实际操作起来却会遇到第一个难题—— 到底哪个模型最适合OpenClaw呢？知道大家着急，龙虾之父亲自来支招了：可以关注一下因吹斯汀的榜单。这个名为PinchBench的榜单专门为龙虾而设，它从成功率、速度和价格等方面评估全球大模型对OpenClaw的适应性。（值得一提的是，这个榜单还会定期更新。）尽管该榜单早在今年2月底就已出现，但最近却热度陡增——

AI2026/3/106 阅读