斯坦福医疗AI评测:DeepSeek称雄,Claude 3.7 Sonnet表现如何?Claude国内使用指南

type
status
date
slug
summary
tags
category
icon
password
网址
人工智能在医疗领域的应用正迎来革命性的突破。近日,斯坦福大学发布的一项大模型临床医疗任务综合评测报告,在业界引起了广泛关注。该评测结果显示,名不见经传的DeepSeek R1模型竟以黑马之姿超越了谷歌、OpenAI等巨头的产品,拔得头筹。这一结果不仅令人意外,更重要的是,它揭示了当前AI在真实医疗场景中应用的潜力与挑战。本文将深入解读此次评测的核心内容,并特别关注像Claude 3.7 Sonnet这样表现优异的模型,探讨其对未来医疗AI发展的启示,同时为关注Claude国内如何使用的用户提供指引。

告别纸上谈兵:MedHELM框架直击临床痛点

斯坦福此次评测的核心创新之一在于其构建的MedHELM(Medical Holistic Evaluation of Language Models)评估框架。与以往许多评测侧重于标准化考试题目不同,MedHELM更聚焦于临床医生的真实日常工作场景。这无疑为衡量大模型在医疗领域的实用价值提供了更为精准的标尺。
该框架的构建过程严谨细致:
  • 临床医生深度参与:由29名来自14个不同医学专科的执业医师共同参与开发和验证,确保了评估体系的临床相关性和实用性。
  • 三层级分类体系:模拟临床医生的工作逻辑,将医疗任务划分为“类别”(如临床决策支持)、“子类别”(如支持诊断决策)和“任务”(如生成鉴别诊断)三个层级。最终形成的体系包含5个类别、22个子类别及121项任务,覆盖了医疗实践的方方面面。
  • 综合评估套件:包含了35个基准测试,不仅涵盖了17个现有基准和5个基于现有数据集重构的基准,更重要的是,还全新开发了13个基准测试,其中12个基于真实的电子健康记录(EHR)数据。这有效弥补了以往评测中真实医疗数据应用不足的短板。
MedHELM框架的出现,标志着医疗AI评估从理论走向实践,更加注重模型解决临床实际问题的能力。

群雄逐鹿:DeepSeek R1异军突起,Claude 3.7 Sonnet表现稳健

在MedHELM框架的严格检验下,9个前沿大语言模型的表现呈现出显著差异。
最引人注目的无疑是DeepSeek R1,它在所有35个基准测试的两两对比中,以高达66%的胜率和0.75的宏观平均分位居榜首,且胜率标准差较低(0.10),显示出较强的稳定性和综合实力。紧随其后的是o3-mini,胜率为64%,宏观平均分更是达到了最高的0.77,在临床决策支持类别中表现尤为突出。
备受关注的Claude 3.7 Sonnet同样表现亮眼,胜率达到了64%,宏观平均分为0.73,展现了其在复杂医疗任务处理上的强大能力。对于国内用户来说,想要体验如 Claude 3.7 Sonnet 这样先进的模型,可以通过一些Claude镜像站或关注Claude官方渠道了解Claude国内如何使用。目前,访问 Claude官网 https://claude.aigc.bar 是获取 Claude官方中文版 和最新资讯的便捷途径,帮助用户第一时间感受前沿AI技术。
相比之下,一些知名模型如GPT-4o的胜率为57%,而Gemini 2.0 Flash和GPT-4o mini的胜率则相对较低。开源模型Llama 3.3 Instruct胜率为30%,Gemini 1.5 Pro则以24%的胜率垫底,但其胜率标准差最低,显示出最稳定的竞争表现。
这些结果清晰地表明,在专业的医疗领域,模型的综合性能并非仅由其通用能力决定,针对特定领域的优化和训练至关重要。

深入剖析:模型在不同医疗任务上的“偏科”现象

此次评测不仅给出了模型的总体排名,还深入分析了它们在不同类别医疗任务上的表现差异。
研究发现,模型普遍在以下任务中表现出色: * 临床病例生成:大多数模型得分在0.74-0.85之间。 * 患者沟通与教育:得分在0.76-0.89之间。
这些任务更侧重于自由文本生成,能够较好地发挥大语言模型在自然语言理解和生成方面的固有优势。
然而,在以下任务类别中,模型的表现则普遍不尽如人意: * 管理与工作流程:得分普遍较低(0.53-0.63)。 * 医学研究辅助(0.65-0.75)和临床决策支持(0.61-0.76)类别表现中等。 * 具体到如MedCalc-Bench(从患者病历中计算医学值)、EHRSQL(生成SQL查询)和MIMIC-IV Billing Code(分配ICD-10代码)等需要高度结构化推理和领域知识整合的任务,模型表现普遍较差。
这种“偏科”现象反映出,当前大模型在处理需要深度领域知识、复杂逻辑推理以及精确结构化输出的医疗任务时,仍面临较大挑战。

评估新范式与成本考量:LLM-Jury与性价比分析

为了更客观地评估开放式基准测试(如生成临床摘要),研究团队创新性地采用了大语言模型评审团(LLM-jury)的方法。通过与临床医生的独立评分进行比较,结果显示LLM-jury方法与临床医生评分的一致性(ICC=0.47)甚至超过了临床医生之间的平均一致性(ICC=0.43),证明了其作为临床医生评分替代方案的有效性,为大规模评估提供了可行路径。
此外,研究还对模型的成本效益进行了分析。结果显示,表现优异的DeepSeek R1(1806美元)和o3-mini(1722美元)成本相对较高。而Claude 3.7 Sonnet(1537美元)在性价比上表现尤为突出,以相对较低的成本实现了接近64%的高胜率,这对于希望在预算可控范围内获得高性能AI医疗解决方案的机构和开发者而言,无疑是一个值得关注的选项。用户可以通过访问 Claude官方 网站 https://claude.aigc.bar 了解更多关于其API定价和部署方案,探索 Claude国内使用 的可能性。

结论与展望

斯坦福大学的这项临床医疗AI横评,为我们描绘了当前大模型在医疗领域应用的真实图景。DeepSeek R1的惊艳表现打破了现有市场格局的固有印象,而MedHELM框架则为行业树立了更为贴近临床实际的评估标准。
同时,像Claude 3.7 Sonnet这样的模型,在保持高性能的同时展现出良好的性价比,预示着高质量医疗AI服务普及的可能性。当然,评测也揭示了模型在结构化推理和特定领域知识应用上的不足,这为未来模型的研发指明了方向。
对于医疗机构、AI开发者以及广大关注者而言,这项评测不仅是一份成绩单,更是一份指南。它提醒我们,在拥抱AI带来的机遇时,必须持续进行严格、科学且贴近实际应用的评估。未来,我们期待看到更多像DeepSeek R1这样针对特定领域深度优化的模型涌现,也期待像Claude 3.7 Sonnet这样兼具性能与经济性的模型能够通过便捷的Claude镜像站Claude官网 https://claude.aigc.bar 渠道,为全球包括中国在内的用户提供更优质的Claude官方中文版服务,共同推动AI在医疗健康领域的深度融合与创新发展。
Loading...

没有找到文章