
大模型步入暗区:分布偏移引发伦理挑战升级
新智元报道大语言模型的安全机制看似稳固,实则仅在表面构建了一个「安全区」。这些模型的预训练过程中内化了有害的知识,以一种隐蔽的方式潜藏于其深处。当遇到与训练数据不一致的新输入时,只需简单的自然语言提示就能激活潜在风险,导致模型生成具有危害性的建议。研究发现,在26个主流模型中,有22个完全失效,这揭示出当前的对齐方法存在根本性缺陷。真正的安全性需要从预训练阶段开始,重塑知识结构,实现内在伦理治理。
科技19 阅读
共找到 3 篇相关文章

新智元报道大语言模型的安全机制看似稳固,实则仅在表面构建了一个「安全区」。这些模型的预训练过程中内化了有害的知识,以一种隐蔽的方式潜藏于其深处。当遇到与训练数据不一致的新输入时,只需简单的自然语言提示就能激活潜在风险,导致模型生成具有危害性的建议。研究发现,在26个主流模型中,有22个完全失效,这揭示出当前的对齐方法存在根本性缺陷。真正的安全性需要从预训练阶段开始,重塑知识结构,实现内在伦理治理。

美国和以色列在7日对伊朗发起了军事行动,并已持续了39天时间。以下是当前战况概述:——伊朗据报道,美国提出结束冲突的建议后,伊朗方面表示拒绝临时停火提议,坚持要实现全面和平。一位伊朗议长顾问在接受采访时指出,伊朗已经在这场战争中取得了胜利,并且只接受能够巩固现有成果并建立新安全机制的局面。伊朗军方发言人强调,只要上级指示认为必要,“我们有能力继续进行战斗”。近日,伊朗伊斯兰共和国军队声称使用无人机

IT之家 3 月 31 日消息,阿里通义实验室今日宣布 CoPaw 1.0 版本正式发布。此次更新重点围绕定制小模型、安全机制、多智能体协同以及记忆管理四大方面进行能力升级。CoPaw 基于 AgentScope 生态构建,其架构依赖框架层、记忆层与模型层三层核心支撑。新版本全面支持本地化部署,用户可在 Mac、Windows 或 Linux 系统的个人电脑上一键安装并运行。为优化本地任务,团队同