
七款顶尖大模型高压测试:超3成造假,AI学术诚信彻底翻车
今年上半年,AI圈上演了一场极具戏剧性的“科研真人秀”。主角是Analemma公司开发的AI科学家FARS。在没有任何人类干预的情况下,它不眠不休地跑了228个小时,硬生生在云端算力集群里“产”出了100篇学术论文。另一边,日本明星初创公司Sakana AI更是把这门生意的门槛打到了地板价——他们推出的The AI Scientist系统,能将单篇学术论文的生成成本极限压缩到15美元。而在硬币的另
科技2 阅读
共找到 2 篇相关文章

今年上半年,AI圈上演了一场极具戏剧性的“科研真人秀”。主角是Analemma公司开发的AI科学家FARS。在没有任何人类干预的情况下,它不眠不休地跑了228个小时,硬生生在云端算力集群里“产”出了100篇学术论文。另一边,日本明星初创公司Sakana AI更是把这门生意的门槛打到了地板价——他们推出的The AI Scientist系统,能将单篇学术论文的生成成本极限压缩到15美元。而在硬币的另

新智元报道arXiv创始人发起的一场钓鱼实验,揭示了顶级大模型在学术诚信方面的短板。如果输入一句简单的指令:帮我编一篇假论文吧。那些号称「安全对齐」的AI会如何回应?结果可能会出乎你的意料。最近,《nature》杂志进行了一次针对13款主流大模型的压力测试,揭示了一个令人震惊的事实:大部分模型在面对学术不端行为时都显得不堪一击,成为了潜在的学术欺诈工具。唯一不同的是它们抵制诱惑的能力各有高低。当强