ChatGPT通过「放射学」考试，在医学领域应用潜力巨大！

添加书签

AIGC开放社区
2023-05-18

专注AIGC领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展和应用落地，以及国内LLM的发展和市场研究，欢迎关注！

5月17日，北美放射学会（RSNA）在权威放射学期刊Radiology公布了一项研究，ChatGPT通过了放射学考试，展示了大语言模型在医学领域的巨大应用潜力。（论文地址：https://pubs.rsna.org/doi/full/10.1148/radiol.230582）

本次考试，RSNA模仿了加拿大皇家学院和美国放射学委员会考试的风格和难度。一共150道选择题，ChatGPT回答对了104个，正确率69%达到及格。

GPT-4（ChatGPT plus）基于同样考试题目，回答对了121个，正确率81%高于及格线，这说明在高级推理方面GPT-4性能更好。

RSNA表示，ChatGPT在没有经过专业放射学数据训练的情况下，依然通过了难度较高的放射学考试，给人留下了深刻的印象。ChatGPT出色的信息总结能力、推理能力、分析能力，在医学领域有着巨大的应用潜力。例如，放射学教学、诊断分析、查询医学资料、疾病分类、简化复杂医学概念等。

但是，由于ChatGPT的很多原始预训练数据是 “黑盒数据”，很容易让其输出虚假、非法、歧视信息。例如，在本次考试中，ChatGPT在回答错误的考题中，依然自信满满地说“自己的回答是100%正确的”。

所以，医学领域如果想应用ChatGPT等大语言模型，需要专业的医学数据进行预训练和微调，才能获得更好的应用效果。

主要发现

在150 个没有图像的放射学选择题考试中，ChatGPT正确回答了其中的69%（104）。在需要低阶推理和理解的问题 (84%) 上，比在需要高阶思维 (60%) 的问题上表现更好。
ChatGP与临床管理 (89%) 相关的高阶问题上表现良好，在涉及影像学发现描述 (61%)、计算和分类 (25%) 以及概念应用 (30%) 的问题上表现不佳。
在150 个没有图像的放射学选择题考试中，GPT-4正确回答了其中的81%（121）。在影像学发现描述（85%）、和概念的应用（90%）的表现有着巨大提升。
即便是回答错误了，ChatGPT也会100%地说“自己回答正确了”。