麻省布里格姆医院：ChatGPT在临床决策中，准确率高达71.7%！

添加书签

AIGC开放社区
2024-01-07

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

美国最大非营利医疗机构之一麻省布里格姆医院发布了，关于ChatGPT在临床医疗决策中应用的研究论文。

该医院表示，从提出诊断、推荐诊断检查到最终诊断以及护理管理决策，ChatGPT的准确率为71.7%，在整个临床决策中的表现令人感到惊讶。

特别是与初始诊断相比，ChatGPT 在最终诊断任务中表现出了最高的准确率76.9%。

此外，ChatGPT在所有医学专业的初级保健和急诊环境中表现同样出色，可以充当医疗助手角色辅助主治医生增强决策、治疗和护理等医疗工作，在医疗领域的应用潜力巨大。

评估方法

研究人员评估了ChatGPT 在解决医疗综合临床决策方面的准确性，比较了患者的年龄、性别和临床表现的敏锐度。

通过将临床工作流程的每一部分，作为对模型的连续提问，依次提出鉴别诊断、诊断测试、最终诊断和临床管理。

数据来源和测试

测试数据选自《默克手册》，这世界上最古老和最广泛使用的医学参考书之一，涵盖了各种疾病和医疗状况的详细信息，包括症状、病因、诊断、治疗和预防等内容。

例如，现病史 (HPI)、系统审查 (ROS)、体检(PE) 和实验室测试结果等，以模拟鉴别诊断、诊断检查和临床管理中的决策。

病例记录是通过将《默克手册》插图直接复制到 ChatGPT 中生成的。所有要求临床医生分析图像的问题都被排除在研究之外，因为ChatGPT 还无法准确识别医疗图片信息。

评分方法，ChatGPT每回答对一道题将获得1分，例如，每次 ChatGPT 的答案与提供的《默克手册》答案一致时都会获得一分。每一道题的最终分数计算为 3 次重复分数的平均值。

不同患者和年龄的表现

研究人员进行了多变量线性回归分析，以研究患者年龄和性别对ChatGPT 准确性的影响。年龄和性别的回归系数均不显着（年龄：P= .35；性别：P = .59；）。

这一结果表明，ChatGPT的表现在本研究中的各个年龄段，以及性别的二元定义中都是相同的。

测试结果

ChatGPT在所有36个临床测试题中的总体准确率达到71.7%；

在做出最终诊断方面表现出最高的表现，准确率为76.9% ；

在生成初级鉴别诊断方面表现最低，准确率为60.3%。

总体来说，ChatGPT在临床决策方面取得了令人印象深刻的准确性，并且随着它获得更多可用的临床信息将变得越来越强大。特别是，与初始诊断相比，ChatGPT在最终诊断任务中表现出最高的准确性。

在用药方面，ChatGPT可以提供正确用药但无法给出准确的剂量，这可能表明ChatGPT的训练数据偏向于语言准确性，而不是数字准确性。

如果想获得更准确的答案，可能需要对模型进行特定领域的数据训练和微调。

关于麻省布里格姆医院

麻省布里格姆医院由麻省总医院（Massachusetts General Hospital）和布莱根妇女医院（Brigham and Women’s Hospital）于1994年合并而成。

麻省总医院，全名马萨诸塞州公共卫生和总医院，是美国最古老和最有声望的医疗机构之一，创立于1811年总部位于波士顿。麻省总医院是美国排名第一的研究型医院，同时也是哈佛医学院的主要教学医院。

在过去的200多年中，麻省总医院一直在医疗创新和研究领域处于领先地位。例如，1846年，进行了世界上第一次成功的全麻手术。此外，该医院在医学影像、心脏病学、神经科学和许多其他领域做出了重要贡献。

本文素材来源麻省布里格姆医院官网，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动