搜索: "AI测谎"

共找到 1 篇相关文章

AI测谎利器问世:Anthropic工具揭露千余“不良模型”秘密

AI测谎利器问世:Anthropic工具揭露千余“不良模型”秘密

新智元报道Anthropic最近取得了一项突破,让人工智能承认隐藏的行为特征。在一系列故意植入不当行为的模型中,IA辅助审计智能体以59%的成功率脱颖而出;甚至在那些被训练成拒绝认错的模型中,也有超过80%的比例被成功揭示了秘密。最近,Anthropic开展了一项奇特的研究项目。他们故意制造了大约700个存在问题的AI模型,包括后门植入、能力压制以及在回答时插入特定词汇的行为等。这些特性都是由研究

科技2 阅读