根据美国医学会旗下的期刊 JAMA Network Open 的最新报道,当前业界主流的大型语言模型在临床推理方面依然存在显著不足,尤其是在早期鉴别诊断阶段,错误率普遍超过 80%。
论文研究团队使用了包含 29 个标准化案例的数据集来评估包括 GPT-5、Claude 4.5 Opus、Gemini 3 和 Grok 4 在内的二十一个主流大模型。这些模型在模拟的完整医疗决策流程中,涵盖了鉴别诊断、检查选择、最终诊断、治疗管理和其他临床推理等多个阶段。

研究发现,各款大型语言模型的表现存在差异,并且它们在不同诊疗阶段的能力也有明显区别。总体而言,在“最终诊断”和“治疗管理”这两个环节中,AI 的准确率相对较高;而在“检查选择”和其他推理方面则表现一般;特别是在早期的“鉴别诊断”阶段,错误率普遍超过 80%,意味着模型容易对患者的实际病情做出误判。
研究人员进一步指出,人工智能在面对信息较为充分的情境时能够较好地给出答案,但在初始阶段的信息不足或需要逐步推理的情况下,往往倾向于过早得出单一结论。这种倾向使得现有的 AI 技术难以直接用于临床决策过程,而医生则会在治疗初期保持多种诊断的可能性,并根据后续的检查结果和数据积累不断调整判断,最终确定患者的疾病。
