研究发现：GPT-4在临床推理中表现优于医生，但也更经常出错

划重点:
⭐️ 研究发现，GPT-4在临床推理方面获得较高得分，但也更频繁出错
⭐️ 医生强调临床实践基于深入的推理和临床直觉，AI 系统难以完全复制
⭐️ AI 技术有望在医疗工作流中发挥作用，但仍需进一步研究和完善

站长之家（ChinaZ.com）4月2日消息:在一项新研究中，美国贝斯以色列医疗中心（BIDMC）的科学家们将一种大型语言模型与人类医生进行了临床推理能力的比较。研究人员使用了修订后的 IDEA(r-IDEA)评分，这是一种常用工具，用于评估临床推理能力。

这项研究包括给予一个由 GPT-4提供支持的聊天机器人、21名主治医生和18名住院医生20个临床案例，以建立诊断推理并解决问题。然后，评估了这三组答案的 r-IDEA 分数。研究人员发现，聊天机器人实际上获得了最高的 r-IDEA 分数，这在诊断推理方面实际上相当令人印象深刻。然而，作者还指出，聊天机器人 “经常完全错误”。

AI研究 AI医疗医生

图源备注：图片由AI生成，图片授权服务商Midjourney

研究的主要作者 Stephanie Cabral 医生解释说:“需要进一步研究以确定大型语言模型如何最好地整合到临床实践中，但即使在现在，它们也可以作为一个检查点，帮助我们确保我们没有漏掉什么。” 总之，结果显示了聊天机器人的合理推理，但也有重大错误;这进一步支持了这种 AI 驱动系统在目前的成熟水平下最适合作为一种工具，用于增强医生的实践，而不是取代医生的诊断能力。

正如医疗领导者和技术专家所经常解释的那样，这是因为医学实践并不仅仅基于规则的算法输出，而是基于深入的推理和临床直觉，这是 LLM 难以复制的。然而，像这样能够提供诊断或临床支持的工具仍然可以成为医生工作流程中极其强大的资产。例如，如果系统可以根据可用数据（如患者病史或现有记录）合理地提供 “首次诊断” 或初步诊断建议，可能会让医生在诊断过程中节省大量时间。此外，如果这些工具可以增强医生的工作流程，并改善他们处理医疗记录中大量临床信息的能力，可能会有机会提高效率。

许多组织正在利用这些潜在的临床增强手段。例如，利用自然语言处理的人工智能驱动的转录技术正在帮助医生更高效地完成临床文档记录。企业搜索工具正在与组织和电子病历系统集成，以帮助医生搜索大量数据，促进数据互操作性，并更快更深入地洞察现有患者数据。其他系统甚至可能帮助提供初步诊断;例如，在放射学和皮肤科领域出现了能够通过分析上传的照片提出潜在诊断建议的工具。

然而，这个领域仍有许多工作要做。简而言之，尽管这些 AI 系统还没有准备好用于临床诊断，但仍可能利用这项技术来增强临床工作流程，特别是在保持人类控制的同时确保安全、准确的过程。

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

2025-01-162.0万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

研究发现：GPT-4在临床推理中表现优于医生，但也更经常出错

推荐关键词

24小时热搜

大家正在看

重磅！微软开源最强小模型Phi-4，超GPT-4o、可商用

AI日报：可灵AI API对口型能力全面开放；豆包大模型宣称追平GPT-4；百度2024年度AI提示词“答案”；通义千问视觉模型直降80%

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

微软Phi-4封神，14B小模型数学击败GPT-4o，合成数据占比40%，36页技术报告出炉

4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

消息称OpenAI新模型GPT-5研发未达到预期：成本高昂效果欠佳

数据安全2个关键变化需重视，深信服安全GPT实现数据流动风险可视

通义万相首创生成汉字视频，全面进化称霸VBench！AI视频GPT-3时刻来临

OpenAI称1465元/月的ChatGPT Pro亏损：大家用的太多了

RTX 4060集体涨价！RTX 4060 Ti过分缺货

小米进军三星大本营！在韩国发布小米14T、Redmi Note14 Pro 5G

Forrester TEI研究报告：AP勘讯全面测量方案驱动企业实现495% ROI

REDMI Turbo 4防水大满贯：支持IP66/IP68/IP69

MicroStrategy再度大举购入比特币，总持有量达447470枚

Redmi Turbo 4 Pro参数泄露：骁龙 8s Elite+7000mAh超大电池最快4月登场

极光荣获2024出海全球化软件服务TOP 10

一款“长在Instagram上”的App，上线3年赚了4000万美金

极光荣获“2024 AIGC创新产业TOP20”

REDMI Turbo 4 Pro明年4月发布：升级骁龙8S至尊版+7K级电池

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

研究发现：GPT-4在临床推理中表现优于医生，但也更经常出错

推荐关键词

24小时热搜

大家正在看

重磅！微软开源最强小模型Phi-4，超GPT-4o、可商用

AI日报：可灵AI API对口型能力全面开放；豆包大模型宣称追平GPT-4；百度2024年度AI提示词“答案”；通义千问视觉模型直降80%

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

微软Phi-4封神，14B小模型数学击败GPT-4o，合成数据占比40%，36页技术报告出炉

4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

消息称OpenAI新模型GPT-5研发未达到预期：成本高昂 效果欠佳

数据安全2个关键变化需重视，深信服安全GPT实现数据流动风险可视

通义万相首创生成汉字视频，全面进化称霸VBench！AI视频GPT-3时刻来临

OpenAI称1465元/月的ChatGPT Pro亏损：大家用的太多了

RTX 4060集体涨价！RTX 4060 Ti过分缺货

小米进军三星大本营！在韩国发布小米14T、Redmi Note14 Pro 5G

Forrester TEI研究报告：AP勘讯全面测量方案驱动企业实现495% ROI

REDMI Turbo 4防水大满贯：支持IP66/IP68/IP69

MicroStrategy再度大举购入比特币，总持有量达447470枚

Redmi Turbo 4 Pro参数泄露：骁龙 8s Elite+7000mAh超大电池 最快4月登场

极光荣获2024出海全球化软件服务TOP 10

一款“长在Instagram上”的App，上线3年赚了4000万美金

极光荣获“2024 AIGC创新产业TOP20”

REDMI Turbo 4 Pro明年4月发布：升级骁龙8S至尊版+7K级电池

消息称OpenAI新模型GPT-5研发未达到预期：成本高昂效果欠佳

Redmi Turbo 4 Pro参数泄露：骁龙 8s Elite+7000mAh超大电池最快4月登场