剑桥大学领导的一项研究发现,GPT-4的临床知识和推理能力正在接近专科眼科医生的水平。
GPT-4——一种“大语言模型”——对职业生涯不同阶段的医生进行了测试,包括非专业初级医生、实习医生和专家眼科医生。每个人都会看到一系列涉及特定眼部问题的 87 个患者场景,并被要求从四个选项中进行选择来给出诊断或治疗建议。
GPT-4 在测试中的得分明显优于非专业初级医生,后者的眼科专业知识水平与全科医生相当。
GPT-4 的得分与见习眼科医生和专家眼科医生相似 - 尽管表现最好的医生得分更高。
研究人员表示,大型语言模型不太可能取代医疗保健专业人员,但作为临床工作流程的一部分,有可能改善医疗保健。
他们表示,像 GPT-4 这样最先进的大型语言模型可能有助于在控制良好的环境中提供与眼睛相关的建议、诊断和管理建议,例如对患者进行分类,或者在接触专业医疗保健专业人员的机会有限的情况下。
Arun Thirunavukarasu 博士说:“我们可以实际部署人工智能来对有眼部问题的患者进行分类,以决定哪些病例属于紧急情况,需要立即由专家看诊,哪些病例可以由全科医生看诊,哪些不需要治疗。”该研究的主要作者,他在剑桥大学临床医学院就读时进行了这项研究
他补充道:“这些模型可以遵循已经使用的清晰算法,我们发现 GPT-4 在处理眼部症状和体征以回答更复杂的问题方面与专业临床医生一样出色。
“随着进一步发展,大型语言模型还可以为那些难以从眼科医生那里获得及时建议的全科医生提供建议。英国人等待眼科护理的时间比以往任何时候都长。
需要大量的临床文本来帮助微调和开发这些模型,世界各地正在开展工作以促进这一目标。
研究人员表示,他们的研究优于之前的类似研究,因为他们将人工智能的能力与执业医生进行比较,而不是与一组检查结果进行比较。
“医生不会在整个职业生涯中复习答案 。我们希望了解人工智能在与执业医生的现场知识和能力进行比较时的表现,以便提供公平的比较。”Thirunavukarasu 说道,他现在是牛津大学医院 NHS 基金会信托基金的学术基础医生。
他补充道:“我们还需要描述商用模型的功能和局限性,因为患者可能已经在使用它们而不是互联网来寻求建议。”
该测试包括有关大量眼部问题的问题,包括极端光敏感度、视力下降、病变、眼睛发痒和疼痛,这些问题取自用于测试见习眼科医生的教科书。这本教科书无法在互联网上免费获取,因此其内容不太可能包含在 GPT-4 的训练数据集中。
研究结果今天发表在《PLOS Digital Health》杂志上。