谷歌开发首个专业“AI问诊医生” 表现超越初级保健医生

谷歌开发首个专业“AI问诊医生” 表现超越初级保健医生

 

谷歌开发的医疗问诊AI在医疗诊断上,达到甚至超过了人类初级保健医生的表现

       谷歌开发的一款“AI(人工智能)医生”在与模拟病人的文本对话中表现出比初级保健医生更高的诊断率和更强的同理心。

  在近日上线的一篇预印本论文(未经同行评议)《Towards Conversational Diagnostic AI》(迈向对话诊断人工智能)和一篇博客文章中,Google Research和Google DeepMind团队介绍了他们最新开发的AI系统AMIE(Articulate Medical Intelligence Explorer,表达清晰的智能医疗探索者)。研究者称,这是首个专门用于对话诊断和获取病史的对话型AI系统。

  为了测试这个AI系统,研究者设计了一项随机双盲实验,受过培训的20名模拟病人与AMIE或20名获得认证的初级保健医生进行在线文本交流,模拟病人并不知道自己在与谁交流。研究者设计了类似于客观结构化临床考试(objective structured clinical examination, OSCE)的测试。OSCE是一种现实世界中常用的评估,以标准化和客观的方式检验临床医生的技能和能力。这些病人一共模拟了149个临床情境。随后,他们评估了自己的问诊体验。另有一组专科医生参与评估了AMIE和初级保健医生的表现。

  评估结果是AMIE达到甚至超过了初级保健医生的水平。初级保健医生是国际上对基础医疗服务提供者的统称,最主要的形式是家庭医生和全科医生。

  从专科医生的角度看,在关于沟通和诊断质量的32项标准中,AMIE在既往病史、清晰、全面等28项上的表现更优。从模拟病人的角度看,在26项关于沟通质量的标准中,AMIE在包括礼貌、倾听、解释病情等24项上的表现更优。

  AMIE诊断的准确率更高。横向对比AMIE和初级保健医生分别给出的“top-k”鉴别诊断,AMIE准确率均显著高于后者。在医学诊断中,当评估一个病例时,通常会产生一个诊断列表,top-k是指在这个列表中可能性最大的k个诊断。比如,医生判断最有可能导致患者症状的三种疾病或疾病组合,就是“top-3”。

  此外,研究者发现,AMIE更优越的鉴别诊断能力主要来源于其更强的推理能力,它能更好地解释信息以产生准确、完整的鉴别诊断。而且它的信息获取能力与初级保健医生相当。去年7月,谷歌团队在《自然》杂志发布了一款医疗问诊AI Med-PaLM,表现已经在个别维度上接近临床医学专家,但检索和推理能力相对较弱。(参见财新网《多款医疗AI已问世,它们能否打败人类医生?》

  AMIE是如何开发的?据介绍,这是一个基于大语言模型(LLM)的研究型AI系统,专门针对诊断推理和对话进行了优化。研究者使用了包括医学推理、医学摘要和临床对话的真实数据集对AMIE进行初始训练。

  LLM是指用大量的文本数据进行、旨在理解和生成人类语言的AI。风靡全球的ChatGPT是个中代表。

  但是,真实世界数据在训练医学对话LLM上存在两个局限。一方面,真实世界数据较为有限,往往无法捕捉到大量的医疗条件和场景,另一方面,从真实世界对话记录中获得的数据往往是嘈杂的,包含含糊不清的语言(包括俚语、行话、幽默和讽刺)、中断、不合语法的语句和不明确的引用。

  为了应对这些挑战,研究者设计了一种让AI自我对话(self-play)的方法。研究者引导AMIE扮演4个角色,分别是患有特定病症的病人,富有同情心的医生,判断医生和患者的对话是否结束的主持人,以及对病人与医生的互动进行评估并提供反馈的批评者。

  这个过程形成了内外两个循环。在内循环中,AMIE利用语境中的批评反馈来改进生成新的对话。在外循环中,一组调整好的模拟医患对话被整合到之后的微调迭代之中。由此产生的新的AMIE版本可以再次参与到内循环中,创造了一个良性的持续学习循环。

  此外,研究者还采用了推断过程的推理链(inference time chain-of-reasoning)策略,推理链指的是一系列有序的模型调用,每个调用都依赖于前面步骤的输出。这一策略使AMIE能够根据当前的对话逐步完善其对话,从而得出一个有根据的回复。

  研究者看重AMIE成为临床医生助手的潜力。在去年11月30日上线的预印本论文《Towards Accurate Differential Diagnosis with Large Language Models》(用大语言模型实现准确的鉴别诊断)中,该团队成员介绍了AMIE的早期迭代版本。在诊断从《新英格兰医学杂志》(NEJM)临床病理会议(ClinicoPathologic Conferences)中挑选出的303例疑难杂症时,AMIE单独生成鉴别诊断的准确率超过了无辅助的临床医生。有AMIE辅助的临床医生准确率高于没有辅助的临床医生和有搜索辅助的临床医生。此外,有AMIE辅助的临床医生得出的鉴别清单更全面。

  尽管AMIE的表现非常优秀,但研究者认为应该谨慎解释这些结果。目前的研究是在线上文字沟通的场景下进行的,这是当下人类与LLM互动的最主要方式,但临床医生可能对此并不熟悉,不能代表一般的临床实践。

  研究者分析,从目前的研究过渡到可以使用的安全工具仍有许多重要的局限留待解决,包括真实世界限制条件下的实践表现,以及对公平、隐私、稳健性等重要议题的探索,以确保技术的安全和可靠。

 

本文转自于   财新网

以上内容(如有图片或视频亦包括在内)为自媒体平台“才汇云网”用户上传并发布,本平台仅提供信息存储服务。
0条评论
评论