搜索: "安全机制"

共找到 3 篇相关文章

大模型步入暗区：分布偏移引发伦理挑战升级

新智元报道大语言模型的安全机制看似稳固，实则仅在表面构建了一个「安全区」。这些模型的预训练过程中内化了有害的知识，以一种隐蔽的方式潜藏于其深处。当遇到与训练数据不一致的新输入时，只需简单的自然语言提示就能激活潜在风险，导致模型生成具有危害性的建议。研究发现，在26个主流模型中，有22个完全失效，这揭示出当前的对齐方法存在根本性缺陷。真正的安全性需要从预训练阶段开始，重塑知识结构，实现内在伦理治理。

科技2026/4/1919 阅读

联合国震惊：特朗普威胁四小时内重创伊朗；以色列海法遭袭无拦截迹象——中东冲突步入第39天

美国和以色列在7日对伊朗发起了军事行动，并已持续了39天时间。以下是当前战况概述：——伊朗据报道，美国提出结束冲突的建议后，伊朗方面表示拒绝临时停火提议，坚持要实现全面和平。一位伊朗议长顾问在接受采访时指出，伊朗已经在这场战争中取得了胜利，并且只接受能够巩固现有成果并建立新安全机制的局面。伊朗军方发言人强调，只要上级指示认为必要，“我们有能力继续进行战斗”。近日，伊朗伊斯兰共和国军队声称使用无人机

国际2026/4/81 阅读

阿里通义CoPaw1.0发布：定制小模型、安全机制与多智能体全面进化

IT之家 3 月 31 日消息，阿里通义实验室今日宣布 CoPaw 1.0 版本正式发布。此次更新重点围绕定制小模型、安全机制、多智能体协同以及记忆管理四大方面进行能力升级。CoPaw 基于 AgentScope 生态构建，其架构依赖框架层、记忆层与模型层三层核心支撑。新版本全面支持本地化部署，用户可在 Mac、Windows 或 Linux 系统的个人电脑上一键安装并运行。为优化本地任务，团队同

科技2026/3/315 阅读