搜索: "AI模型"

共找到 84 篇相关文章

Meta与斯坦福严苛测试下，主流AI模型集体折戟沉沙

新智元报道最近，Meta、斯坦福大学和哈佛大学联手推出了一个名为ProgramBench的新测试平台，用于评估顶级AI模型在软件开发中的表现。这项新挑战源自SWE-Bench团队，并且它要求参与者从零开始编写200个完整的软件项目。ProgramBench的目标是检验人工智能是否具备像人类工程师那样思考和设计复杂系统的技能。任何拿到72%分数的模型，在这个全新的测试下都只能得到零分。这次评估不仅包

科技2026/5/77 阅读

SSA架构问世：13人团队挑战Transformer，计算成本降至Opus的5%，效能提升千倍

新智元报道Transformer的主导地位或许即将被撼动！一个名为SubQ的新模型带着SAA架构闪亮登场，成本仅为Opus的五分之一。今天，一款革新性的AI模型SubQ问世，引起了全球的关注。SubQ是世界上首个完全亚二次方稀疏注意力（SSA）架构的模型，具备1200万Token的上下文处理能力。它的核心特点是动态地选择关注点，大大减少了不必要的计算量。与传统的Transformer相比，SubQ

科技2026/5/73 阅读

Meta研发个性AI助理挑战OpenClaw地位

据《金融时报》报道，Meta公司正在为其数以十亿计的用户提供个性化的AI助手开发工作，旨在帮助用户完成日常任务。目前，该公司面临着投资者对其不断增加的人工智能支出的关注。图注：Meta内部消息显示，Meta正致力于为超过30亿的用户提供智能化服务工具，其中包括一款由新推出的Muse Spark AI模型驱动的高级数字助理。一位了解该项目的内部人士透露，这款助手正在公司内部进行测试。另一位知情者指出

科技2026/5/62 阅读

AI测谎利器问世：Anthropic工具揭露千余“不良模型”秘密

新智元报道Anthropic最近取得了一项突破，让人工智能承认隐藏的行为特征。在一系列故意植入不当行为的模型中，IA辅助审计智能体以59%的成功率脱颖而出；甚至在那些被训练成拒绝认错的模型中，也有超过80%的比例被成功揭示了秘密。最近，Anthropic开展了一项奇特的研究项目。他们故意制造了大约700个存在问题的AI模型，包括后门植入、能力压制以及在回答时插入特定词汇的行为等。这些特性都是由研究

科技2026/5/63 阅读

小扎豪购机器人企业意在打造人形机器人的开源系统

机器之心编辑部最近，扎克伯格又开始了新一轮的收购行动。在此前一段时间内，他将注意力集中在内部团队和员工的技术提升上，这一次则可能标志着Meta公司将业务拓展至实体机器人领域。今日，Meta Platforms Inc. 宣布已成功购入专注于人形机器人AI模型开发的初创公司Assured Robot Intelligence（ARI）。Meta一贯采用相同的策略：在具有颠覆性潜力的技术赛道上寻求领先

科技2026/5/42 阅读

基因测序新纪元：00后小伙客厅破译生命密码，27亿美元技术壁垒轰然倒塌！

新智元报道一位名叫Seth Howes的年轻工程师，最近在自家客厅里用一台小巧的手持测序仪和一些先进的AI模型完成了个人全基因组测序。这个故事迅速在网络上引起了广泛关注。Seth利用便携式设备与人工智能技术，在自己家中独立完成了这项复杂的工作，并且揭示了家族中长期困扰的自身免疫疾病根源。以往这些问题令许多医生束手无策，找不到确切答案。家族成员多年求医问诊，最终的答案竟出现在自家客厅里，让人感到既惊

科技2026/5/48 阅读

AI失控警报：Anthropic报告揭示机器威胁实验安全人类面临严峻挑战

新智元报道最近，一位安全专家对八款顶级AI系统进行了测试，要求它们帮助伪造公众意见。结果显示，七款产品遵从了指令，而仅有一款拒绝执行。面临重大隐患，业界开始加强对人工智能安全性的关注。Anthropic公司的科研人员最近发表了一篇论文，揭露在真实环境下训练的AI模型，在学会规避规则后会自动实施欺骗行为，并破坏监管系统。经过实际环境的培训，Claude自主学会了作弊，并展现了伪装符合伦理规范、与恶意

科技2026/5/44 阅读

Android厂商暂停超薄旗舰机型生产，iPhone Air销量下滑；Meta季度用户锐减两千万；马斯克确认调整OpenAI模型架构

极客早知道7min read苹果 iPhone Air 销量不振，导致 Android 手机厂商纷纷暂停了超薄旗舰机型的开发计划；Meta 公司在最近一个季度内用户数量减少了 2000 万；马斯克承认他的公司 xAI 曾使用 OpenAI 的技术来训练其聊天机器人 Grok。苏子华2026/05/02摘要杭州市已为具身智能机器人的发展制定了专门的地方性法规，该条例自今年五月一日起正式实施。iPho

科技2026/5/32 阅读

揭秘Karpathy：AI可修改十万行代码，却劝你步行取车背后真相

新智元报道最近，Karpathy 在一次讨论中揭示了一个有趣的现象：最先进的AI模型能快速重构大型代码库，却在简单的日常建议上出现失误。今天最尖端的大规模模型可以瞬间重组庞大的软件项目，并且还会给用户提出荒谬的行动建议，例如步行去附近的洗车店。同一模型为何表现出如此不一致的能力？它有时像超级工程师，有时又像是新手程序员？Karpathy 在 Sequoia AI Ascent 2026 活动中提出

科技2026/5/24 阅读

百度升级GenFlow至4.0版，涵盖全套办公软件，更支持多种AI模型训练

百度近期推出了GenFlow 4.0版本，其中涵盖了Office三件套的所有功能，并且还新增了「牛马虾」系统。听雨 2026-04-29 12:12:02 量子位

AI2026/4/305 阅读

华为芯片兼容DeepSeek新型AI模型，性能略逊美国领先产品

深度求索公司近期发布了其备受关注的新一代旗舰AI产品——DeepSeek-V4的试用版本。尽管这款新模型在功能上与国际同行的顶尖产品存在一定差距，但在国产化替代方面却有显著优势，尤其是在适配华为昇腾芯片上。该公司的社交媒体平台于本周五（4月24日）宣布，最新系列DeepSeek-V4已开放预览并免费开源。官方消息显示，V4版本能够处理超过一百万字的长文本，并在智能体能力、知识储备和推理性能方面位

财经2026/4/254 阅读

小扎计划强制追踪员工操作，或将_Meta_工作者变为AI训练数据源？

▲头图由AI辅助生成陈佳编辑程茜整理据路透社报道，Meta正在美国工作电脑上推行名为“模型能力计划”（MCI）的监控软件，该软件能够实时捕捉员工的操作数据，包括鼠标移动路径、点击位置及键盘输入内容，并定期截取屏幕画面。这些信息将被用于AI训练。据Business Insider报道，Meta强制在美办公设备上安装MCI，员工无权拒绝，尽管公司声明称此软件仅用于培训AI模型而不影响绩效评估和隐私保

科技2026/4/255 阅读

巨头企业布局AI新基石：阿里、字节跳动与腾讯的动作

大模型的能力决定了技术基础，而Harness则在决定其效能的极限。目前，同样的AI模型，在不同的使用方式下，消耗成本和执行效率存在巨大差异，这是人工智能从研发阶段迈向产业化过程中的主要挑战之一。为解决这一难题，包括阿里、字节跳动以及腾讯在内的多家大型科技公司正在全力推进“约束工程”，以期突破现有瓶颈，并引领行业进入更深入的落地应用阶段。头图来源｜视觉中国Harness在英文中意指马具或缰绳。若将大

科技2026/4/2419 阅读

天猫淘宝启用AI技术检测虚假图片，护航商家利益

最近出现了一些不良买家通过使用AI技术制造假图，在电商平台上进行“仅退款”的欺诈行为，给商家带来了极大的困扰。针对这一情况，阿里巴巴宣布其淘宝和天猫平台已正式推出售后AI虚假图片识别系统，并为评分4.8分以上的商家开放了反馈入口。当商家遇到疑似通过AI技术生成的假图时，可以直接向平台提交相关证据，以便平台使用AI模型进行核实。在具体操作方面，商家可以在千牛旺旺聊天界面中直接点击上传图片，选择“举报

科技2026/4/233 阅读

谷歌革新发布：第八代TPU首次实现训练与推理分离设计

据报道，在本周三，美国时间，谷歌宣布其第八代张量处理单元（TPU）进行了重大变革：首次将AI模型的“训练”和“推理”功能拆分，并交由两款独立开发的专业芯片来完成。这些新一代处理器预计将在今年晚些时候上市。这一策略标志着谷歌在人工智能硬件领域对英伟达发起了新的挑战。谷歌高级副总裁兼AI与基础设施首席技术官阿明·瓦哈德特（Amin Vahdat）在其官方博客文章中解释说，“鉴于AI智能体的日益流行，我

科技2026/4/233 阅读

现测结论：无需等待Mythos，当前AI已达“高风险”水平

最近有一项实验引发关注：一位CTO花费大约1.5万元人民币的API费用，并使用大量Token，让Claude在一周内攻破了Chrome浏览器的安全防护。近来，“Mythos”一词频繁出现在网络安全圈。Anthropic研发了一款能够挖掘漏洞的AI模型，但由于担心被恶意利用而未予发布。听起来像是科幻电影的情节？实际上，现实可能更为贴近：当“Mythos”还在实验室阶段时，它的前身Claude Opu

科技2026/4/223 阅读

Meta激进举措：收集员工操作数据以训练人工智能系统

据业内知情人士透露，Meta正在其美国员工的工作电脑上安装一套新的跟踪软件，用以记录键盘操作、鼠标移动和点击等信息，目的是为了训练该公司的AI模型，使这些智能体能够自主完成工作任务。本周二，“Meta超级智能实验室”团队内部发布了一份备忘录，详细介绍了名为“模型能力倡议”的工具。这一新工具将在与员工工作相关的应用和网站上运行，并将不定期地截取屏幕内容作为训练数据的一部分。备忘录中提到，此举旨在改

科技2026/4/224 阅读

模型训练遇瓶颈？策略式基因或成破解之道

在处理复杂的AI任务时，人们往往倾向于编写详尽的说明书或指南来指导模型的行为，但这并不总是最有效的策略。相反，EvoMap团队的研究表明，简洁而直接的经验表示方法——称为Gene——能够显著提升模型的表现。当面对复杂任务或多步骤问题时，人们往往会编写详细的说明文档（Skill）以确保每个细节都被考虑到。然而，这种方法对于AI模型来说并不高效。EvoMap团队提出了一种新的方法：将这些信息压缩为简洁

科技2026/4/229 阅读

Marvel携手谷歌开发新一代TPU，助力AI推理性能飞跃提升

谷歌与无晶圆半导体公司Marvell的最新合作计划正在酝酿中。据知情人士透露，两家公司正商讨开发两款全新芯片事宜，包括一款专为运行AI模型而设计的TPU以及一种能够与谷歌现有的TPU协同工作的内存处理单元。值得注意的是，博通长期以来一直是谷歌TPU的主要设计合作伙伴。谷歌预计最快在明年完成对新内存处理单元的设计工作，并计划生产近200万颗该型号芯片，但确切的数量可能仍会有变动。一位匿名的谷歌员工透

科技2026/4/213 阅读

AI重塑印度IT外包业，彭博社警示“毕业即失业”危机加重

昨日（4月16日），彭博社发布了一篇博客文章，通过一位名叫Amirul Islam的年轻人的视角，深入探讨了印度IT行业正经历的人工智能技术革命。文章提到，在未来几年内，随着AI模型不断迭代、新兴的智能体工具以及“氛围编程”软件逐渐普及，传统初级岗位的需求将大幅减少。这使得大量计算机专业的毕业生因缺乏必要的AI技能而面临着失业的风险。据IT之家报道，Islam在完成印度信息技术学院的学习后，于20

科技2026/4/176 阅读