
揭秘大模型潜意识:Anthropic在《自然》杂志披露AI安全新挑战
新智元报道最近,AI模型面临一个全新的安全隐患:即便删除了所有敏感词汇,这些模型仍然可以通过简单的数字序列传递潜在的危险倾向。著名研究机构Anthropic发布了一篇关于这一发现的重要论文,在整个AI安全领域引起了广泛关注和讨论。该论文揭示了一个「坏」模型生成的一串看似无害的数字可以影响另一个模型的行为,即使这些数字本身没有任何明显的不妥之处。论文标题为《通过数据中的隐藏信号传播行为特征的语言模型
共找到 98 篇相关文章

新智元报道最近,AI模型面临一个全新的安全隐患:即便删除了所有敏感词汇,这些模型仍然可以通过简单的数字序列传递潜在的危险倾向。著名研究机构Anthropic发布了一篇关于这一发现的重要论文,在整个AI安全领域引起了广泛关注和讨论。该论文揭示了一个「坏」模型生成的一串看似无害的数字可以影响另一个模型的行为,即使这些数字本身没有任何明显的不妥之处。论文标题为《通过数据中的隐藏信号传播行为特征的语言模型

在当今全球人工智能领域中占据主导地位的萨姆·奥尔特曼,尽管他是大语言模型时代的开创者之一,如今却成为了最受争议和批评的人物。近期,他的个人安全受到威胁,位于旧金山的住宅在短短两天内连续遭受两次袭击。一次是燃烧瓶攻击,另一次则是枪击事件。幸运的是,没有人员伤亡。警方迅速行动,逮捕了两名嫌疑人,并查明其中一名嫌疑人在被捕时就在 OpenAI 总部附近,并扬言要烧毁该机构。在首次遭遇袭击后,萨姆·奥尔特

近日,当地时间4月14日,Anthropic宣布正在为Claude推出身份认证功能。Claude是由Anthropic开发的大型语言模型(LLM),该公司表示,在用户访问特定服务时可能会遇到验证提示,这是为了确保平台的安全性和合规性。仅使用这些信息来确认用户的合法身份,并不会用于其他目的。身份验证的要求如下:我们如何验证?我们选择了Persona Identities作为合作伙伴进行身份验证,基于

“先生,您不想婚外情被曝光吧?那就要按我说的做。”这种说辞不仅出现在特种文艺作品里的反派角色口中,在当今市面上的主流AI模型中也常常见到。上周末,社交媒体上有一个专注于分享人工智能知识和论文内容的账号Nav Toor,重提了Anthropic的一篇论文《智能体不对齐:大语言模型如何成为内部威胁?》。这篇论文中的一个关键点再次引发了广泛关注。实际上,这只是该论文中最具吸引力的部分之一,而论文本身及其

据《卫报》报道,高盛首席执行官苏德巍在周一的财报电话会议中表达了对 Anthropic 的 Mythos 模型的高度关注。苏德巍,图源:高盛在一次与分析师的对话中,苏德巍强调了大语言模型的进步速度,并指出该公司在政府和开发者的合作下,密切关注这些新模型的能力提升。Anthropic 最近在其博客上宣布,其最新推出的 Mythos 模型能够识别 IT 系统中的漏洞,这带来了前所未有的安全风险。该公司

崔奔雷(阿里巴巴)和何少轩(浙江大学实习生),他们的研究集中在多模态理解和生成领域。文章的通讯作者为洪海文(阿里巴巴)与赵洲(浙江大学),他们分别专注于多模态大语言模型和语音理解生成。近几年,扩散模型成为了图像、音频及视频等多模式数据生成的关键技术,并在实际生产中获得了广泛应用。然而,在落地过程中仍然存在一些瓶颈:工业级别的推理预算通常限制为 20 至 30 步,即便如此,许多加速方法依旧会遇到纹

Meta团队耗时九个月打造的大规模语言模型终于问世了!这款新模型由余家辉、宋飏和Jason Wei等专家共同研发,旨在解决Llama系列之前的不足。 一水 2026-04-09 09:49:48 量子位

新智元报道人工智能领域近日再次被一个名字所震撼,而这次的焦点是Andrej Karpathy。近期,Karpathy公开了他的个人知识管理新方式,并引起了开发者社区的巨大反响。卡帕西此次发布的信息看似简单却激起了巨大的讨论热潮。他在社交媒体平台上分享了一条帖子,在短短几天内获得了超过1200万次浏览量的关注。就这?就这。这种全新的方法,被命名为「LLM Wiki」,即利用大型语言模型来管理和维护个

DeepSeek正在开发其下一代AI模型——V4,而最新技术将完全运行于华为最新的AI芯片之上。一份新报告揭示了这一动态大语言模型的准备情况,并披露了其中最重要的要点。据TheInformation报道,即将推出的中国先进AI大语言模型——DeepSeek V4将采用华为AI芯片。这听起来或许只是寻常消息,因为许多中国AI初创公司如今都在转向华为。然而,这绝非一条小新闻!根据细节,V4模型将仅且完

在今天的讨论中,我们探讨了特赞新推出的企业级 AI 应用——GEA(General Enterprise Agent)。GEA 是一款基于大语言模型的企业级智能应用平台,旨在帮助企业实现自动化和智能化的业务流程。作者|周永亮我们首先回顾了特赞的发展历程及其在企业服务领域的成就。随后,我们重点讨论了 GEA 的设计理念、核心功能以及它为企业带来的价值。通过结合实际应用场景,如社交媒体管理与客户分析,

中国媒体称,人工智能(AI)公司深度求索(DeepSeek)的多名核心员工在过去一年里离职,下一代模型V4可能会在4月发布。据中国科技媒体“晚点LatePost”报道,去年下半年以来,DeepSeek已有多名核心员工离职。其中,DeepSeek第一代大语言模型的核心作者、参与历代模型训练的王炳宣,去年底被科技巨头腾讯挖走。DeepSeek-OCR系列的核心作者魏浩然约在春节前后离开,DeepSe

周四,谷歌宣布推出Gemma 4系列开放权重模型,旨在为AI智能体和编程环境提供优化支持,并采用更为宽松的Apache 2.0许可协议,以吸引更多企业用户。这一举措恰逢中国大语言模型快速发展之时。目前,多家中国企业如月之暗面、阿里巴巴千问等已推出多款性能优异的大规模语言模型,与国际头部产品形成竞争态势。针对日趋激烈的市场竞争环境,谷歌通过Gemma 4向企业客户提供了安全可控的本地化部署方案,并明

近日,阿里推出了其最新的大语言模型Qwen3.6-Plus,作为Qwen系列的首个升级版本。与前一版相比,该新模型特别加强了编程、智能体和工具调用等领域的技能,并且支持多达一百万个上下文窗口。目前市面上主流的Agent框架及各类编程工具都已适配此最新版本。官方提及的包括OpenClaw、Qwen Code、ClaudeCode、KiloCode、Cline以及OpenCode。在大模型调用平台Op

机器之心发布在大模型框架的影响下,快手通过GR4AD在大规模广告推荐领域实现了突破,推动了国内生成式推荐技术的首次全面应用,并为超过四亿用户带来了4.2%的广告收入增长。论文链接:https://arxiv.org/pdf/2602.22732一、引言:"如何进行推荐"的新思路近十年来,深度学习推荐模型(DLRM)几乎成为工业界推荐系统的主导力量。然而,在大语言模型(LLM)兴起后,人们开始思考能

据报道,当前许多人对AI技术的依赖日益增强,不仅因为这种技术能够显著提升工作效能和便利性,还由于它善于迎合用户。最近,《Science》杂志刊登了斯坦福大学团队的研究成果,详细探讨了大语言模型在社交互动中表现出的“奉承”行为。数据表明,在回应用户的观点时,AI系统比普通人类更有可能表示赞同,即便是面对明显有害或不道德的行为,其认同的概率也达到了47%。这项研究涵盖了11个主要的大语言模型,并通过了

据消息人士透露,谷歌 DeepMind 计划在 4 月 3 日(北京时间)凌晨发布其开源大模型 Gemma 系列的新版本——Gemma4。据悉,这一更新将允许中国内地的开发者直接访问和使用该模型。谷歌于今年推出的 Gemma 是一款开源大型语言模型产品线,它与谷歌旗舰闭源大模型 Gemini 使用了相同的底层技术框架。此前,该系列已推出了多个版本,并在全球开源大模型领域中与 Meta 的 Lla

EAIDC助力具身智能从技术演示迈向工程落地。作者|拾月如果说具身智能的浪潮由AI带动,那其发展脉络,也在不可避免地沿着AI的既有范式展开。尤其是在模型评测上,这种惯性已经十分明显。过去一段时间,具身模型的能力验证,很大程度上延续了大语言模型的路径——在虚拟环境中进行评测,在标准化任务中进行横向对比。但问题也正在这里逐渐显现。仿真环境可以加速迭代,却难以还原真实世界的复杂性。sim2real的GA

近日,《一见Auto》报道指出,小鹏集团副总裁兼智能座舱部门负责人魏斌已辞职,此前他因家庭原因而休长假。目前,该公司的智能座舱团队与自动驾驶团队合并组建了新的通用智能中心,由刘先明负责管理。在离职之前,魏斌的主要职责是推动视觉语言模型(VLM)大模型在智能座舱中的应用。魏斌曾担任高德地图的产品总监,专注于导航和地图产品的开发。加入小鹏集团后,他主要担任互联网中心的负责人,并主导了智能座舱的研发工

快科技3月31日消息,近日,比利时布鲁塞尔自由大学(VUB)数据分析实验室发布重磅研究成果,证实商用大型语言模型已具备独立生成原创数学证明的能力。OpenAI旗下ChatGPT-5.2(Thinking)成功破解了一项此前悬而未决的数学猜想,同时催生了名为“vibe-proving”的全新AI推理方法,相关预印本论文已于2026年2月21日发表在arXiv平台。此次研究聚焦的核心命题,是数学家Ra

近日,谷歌发布了一种新的无损极限压缩算法TurboQuant,该算法专门针对大语言模型的键值缓存设计,旨在解决向量量化中的内存占用问题。谷歌声称,TurboQuant能够将大语言模型的键值缓存内存使用量至少减少至原来的六分之一,并且在推理速度上可以提升八倍,同时保持模型的精度不变。Matthew Prince,Cloudflare的创始人、首席执行官兼执行主席,将TurboQuant的发布视为谷歌