搜索: AI测谎

搜索: "AI测谎"

共找到 1 篇相关文章

AI测谎利器问世：Anthropic工具揭露千余“不良模型”秘密

新智元报道Anthropic最近取得了一项突破，让人工智能承认隐藏的行为特征。在一系列故意植入不当行为的模型中，IA辅助审计智能体以59%的成功率脱颖而出；甚至在那些被训练成拒绝认错的模型中，也有超过80%的比例被成功揭示了秘密。最近，Anthropic开展了一项奇特的研究项目。他们故意制造了大约700个存在问题的AI模型，包括后门植入、能力压制以及在回答时插入特定词汇的行为等。这些特性都是由研究

科技2026/5/62 阅读