研究发现:GPT-4在临床推理中表现优于医生,但也更经常出错
划重点:
⭐️ 研究发现,研究优于医生GPT-4在临床推理方面获得较高得分,发现但也更频繁出错
⭐️ 医生强调临床实践基于深入的临理中推理和临床直觉,AI 系统难以完全复制
⭐️ AI 技术有望在医疗工作流中发挥作用,床推常出错但仍需进一步研究和完善
CSS站长资源(ChinaZ.com)4月2日 消息:在一项新研究中,表现美国贝斯以色列医疗中心(BIDMC)的但也科学家们将一种大型语言模型与人类医生进行了临床推理能力的比较。研究人员使用了修订后的更经 IDEA(r-IDEA)评分,这是研究优于医生一种常用工具,用于评估临床推理能力。发现
这项研究包括给予一个由 GPT-4提供支持的临理中聊天机器人、21名主治医生和18名住院医生20个临床案例,床推常出错以建立诊断推理并解决问题。表现然后,但也评估了这三组答案的更经 r-IDEA 分数。研究人员发现,研究优于医生聊天机器人实际上获得了最高的 r-IDEA 分数,这在诊断推理方面实际上相当令人印象深刻。然而,作者还指出,聊天机器人 “经常完全错误”。
图源备注:图片由AI生成,图片授权服务商Midjourney
研究的主要作者 Stephanie Cabral 医生解释说:“需要进一步研究以确定大型语言模型如何最好地整合到临床实践中,但即使在现在,它们也可以作为一个检查点,帮助我们确保我们没有漏掉什么。” 总之,结果显示了聊天机器人的合理推理,但也有重大错误;这进一步支持了这种 AI 驱动系统在目前的成熟水平下最适合作为一种工具,用于增强医生的实践,而不是取代医生的诊断能力。
正如医疗领导者和技术专家所经常解释的那样,这是因为医学实践并不仅仅基于规则的算法输出,而是基于深入的推理和临床直觉,这是 LLM 难以复制的。然而,像这样能够提供诊断或临床支持的工具仍然可以成为医生工作流程中极其强大的资产。例如,如果系统可以根据可用数据(如患者病史或现有记录)合理地提供 “首次诊断” 或初步诊断建议,可能会让医生在诊断过程中节省大量时间。此外,如果这些工具可以增强医生的工作流程,并改善他们处理医疗记录中大量临床信息的能力,可能会有机会提高效率。
许多组织正在利用这些潜在的临床增强手段。例如,利用自然语言处理的人工智能驱动的转录技术正在帮助医生更高效地完成临床文档记录。企业搜索工具正在与组织和电子病历系统集成,以帮助医生搜索大量数据,促进数据互操作性,并更快更深入地洞察现有患者数据。其他系统甚至可能帮助提供初步诊断;例如,在放射学和皮肤科领域出现了能够通过分析上传的照片提出潜在诊断建议的工具。
然而,这个领域仍有许多工作要做。简而言之,尽管这些 AI 系统还没有准备好用于临床诊断,但仍可能利用这项技术来增强临床工作流程,特别是在保持人类控制的同时确保安全、准确的过程。
(责任编辑:自媒体)
- ·AI2发布开放语言模型OLMo 号称多项性能媲美Llama2
- ·618前淘宝抖音宣布互联互通:可跟踪抖音种草、淘宝成交数据
- ·用户反映iPad Pro OLED颗粒感明显:中招机型大部分是11英寸版本
- ·抖音,600亿小游戏的“卖铲人”
- ·你的城市有这素质吗:杭州斑马线前礼让行人感动外地游客 特别好的城市
- ·售价2万 !苹果Vision Pro国行版来了:9个国家同步开售
- ·潜望长焦旗舰!vivo X100 Ultra维修价格出炉
- ·索尼音乐警告科技公司不得“未经授权”使用其内容来训练人工智能
- ·央视:龙年《春晚》采用XR VP虚实融合超高清制作 主舞台上百块LED屏
- ·雷军:直播收多少礼物 就换成多少小米产品给粉丝抽奖
- ·2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元
- ·女主播低俗擦边卖车 微信处置上千个直播间:部分被禁播
- ·京东:员工是最宝贵财富 超2万名一线客服涨薪超30%
- ·一季度收益34.86亿!零跑发布一季度财报:同比增加141.7%
- ·AIMIX智剪体验入口 短视频批量剪辑AI字幕生成配音合成软件免费下载地址
- ·苹果二手设备显示原机主照片:iOS/iPadOS 17.5系统Bug导致
- ·雷军兑现承诺直播时打开礼物功能:网友疯狂刷屏送礼
- ·苹果iPhone SE 4曝光:采用6.1英寸刘海屏
- ·AI拜年模拟器“决战拜年之巅”网络走红 快来看看你是不是“大孝子”
- ·刘海屏重出江湖!曝iPhone SE 4明年登场