Mayo Clinic 对抗 AI 幻觉的秘密武器:反向 RAG 实践

2个月前 科技 16观看
摘要 尽管大语言模型 (LLM) 变得越来越复杂和强大,但它们仍然存在幻觉问题:提供不准确的信息,或者更直白地说,就是在撒谎。这在医疗保健等领域尤其有害,因为错误信息可能会带来严重后果。作为美国顶级

尽管大语言模型 (LLM) 变得越来越复杂和强大,但它们仍然存在幻觉问题:提供不准确的信息,或者更直白地说,就是在撒谎。8SB喜好网-记录每日喜好的科技时尚娱乐生活

这在医疗保健等领域尤其有害,因为错误信息可能会带来严重后果。8SB喜好网-记录每日喜好的科技时尚娱乐生活

作为美国顶级医院之一的 Mayo Clinic 采用了一种新颖的技术来应对这一挑战。为了取得成功,该医疗机构必须克服检索增强生成 (RAG) 的局限性。这是大语言模型从特定相关数据源获取信息的过程。该医院采用了本质上是反向 RAG 的方法,模型先提取相关信息,然后将每个数据点链接回其原始源内容。8SB喜好网-记录每日喜好的科技时尚娱乐生活

remarkably,这种方法在非诊断用例中几乎消除了所有基于数据检索的幻觉,使 Mayo 能够在其临床实践中推广该模型。8SB喜好网-记录每日喜好的科技时尚娱乐生活

"通过这种通过链接引用源信息的方法,数据提取不再是问题,"Mayo 的战略医疗主任兼放射科主任 Matthew Callstrom 告诉 VentureBeat。8SB喜好网-记录每日喜好的科技时尚娱乐生活

处理每一个数据点 处理医疗保健数据是一个复杂的挑战,也可能是一个耗时的过程。虽然电子健康记录 (EHR) 中收集了大量数据,但数据可能非常难以查找和解析。8SB喜好网-记录每日喜好的科技时尚娱乐生活

Mayo 在处理所有这些数据时首先使用 AI 的场景是出院总结 (包含术后护理提示的就诊总结),其模型使用传统的 RAG。正如 Callstrom 所解释的,这是一个自然的起点,因为它只是简单的提取和总结,这正是 LLM 擅长的领域。8SB喜好网-记录每日喜好的科技时尚娱乐生活

"在第一阶段,我们不是在试图得出诊断结果,比如向模型询问'现在对这个病人来说最好的下一步是什么?',"他说。8SB喜好网-记录每日喜好的科技时尚娱乐生活

幻觉的危险也远不如在医生辅助场景中那么显著;这并不是说数据检索错误不令人困惑。8SB喜好网-记录每日喜好的科技时尚娱乐生活

"在我们最初的几次迭代中,我们遇到了一些明显无法容忍的有趣幻觉,比如病人年龄错误,"Callstrom 说。"所以你必须谨慎构建。"8SB喜好网-记录每日喜好的科技时尚娱乐生活

虽然 RAG 是增强 LLM 能力的关键组件,但该技术有其局限性。模型可能检索到不相关、不准确或低质量的数据;无法确定信息是否与人类提问相关;或创建与请求格式不匹配的输出(如返回简单文本而不是详细表格)。8SB喜好网-记录每日喜好的科技时尚娱乐生活

虽然这些问题有一些解决方案——比如使用知识图谱提供上下文的图形 RAG,或者评估检索文档质量的纠正型 RAG (CRAG)——但幻觉问题并未消除。8SB喜好网-记录每日喜好的科技时尚娱乐生活

引用每个数据点 这就是反向 RAG 过程发挥作用的地方。具体来说,Mayo 将聚类使用代表 (CURE) 算法与 LLM 和向量数据库配对,以双重检查数据检索。8SB喜好网-记录每日喜好的科技时尚娱乐生活

聚类对机器学习 (ML) 至关重要,因为它基于相似性或模式组织、分类和分组数据点。这本质上帮助模型"理解"数据。CURE 通过层次技术超越了典型的聚类,使用距离度量基于邻近度对数据进行分组(想象:相互靠近的数据比远离的数据更相关)。该算法能够检测"异常值",即与其他数据不匹配的数据点。8SB喜好网-记录每日喜好的科技时尚娱乐生活

结合 CURE 和反向 RAG 方法,Mayo 的 LLM 将生成的总结分解成单独的事实,然后将这些事实与源文档匹配。第二个 LLM 然后对事实与这些源的对齐程度进行评分,特别是两者之间是否存在因果关系。8SB喜好网-记录每日喜好的科技时尚娱乐生活

"任何数据点都会被引用回原始实验室源数据或影像报告,"Callstrom 说。"系统确保引用是真实的且准确检索的,有效解决了大多数与检索相关的幻觉。"8SB喜好网-记录每日喜好的科技时尚娱乐生活

Callstrom 的团队首先使用向量数据库摄入病历,以便模型可以快速检索信息。他们最初使用本地数据库进行概念验证 (POC);生产版本是带有 CURE 算法逻辑的通用数据库。8SB喜好网-记录每日喜好的科技时尚娱乐生活

"医生非常谨慎,他们想确保他们不会被提供不可信的信息,"Callstrom 解释说。"所以对我们来说,信任意味着验证任何可能作为内容呈现的东西。"8SB喜好网-记录每日喜好的科技时尚娱乐生活

Mayo 实践中的"巨大兴趣" CURE 技术在综合新病历方面也证明了其用处。详述患者复杂问题的外部记录可能有不同格式的"大量"数据内容,Callstrom 解释说。这些需要被审查和总结,以便临床医生在首次见到患者之前熟悉情况。8SB喜好网-记录每日喜好的科技时尚娱乐生活

"我总是把外部医疗记录描述为有点像电子表格:你不知道每个单元格里有什么,你必须查看每一个来提取内容,"他说。8SB喜好网-记录每日喜好的科技时尚娱乐生活

但现在,LLM 进行提取、分类材料并创建患者概述。通常,这项任务可能占用医生一天中约 90 分钟的时间,但 AI 可以在大约 10 分钟内完成,Callstrom 说。8SB喜好网-记录每日喜好的科技时尚娱乐生活

他描述了在 Mayo 实践中扩展这一能力以帮助减轻行政负担和挫折感的"巨大兴趣"。8SB喜好网-记录每日喜好的科技时尚娱乐生活

"我们的目标是简化内容处理——我如何增强医生的能力并简化他们的工作?"他说。8SB喜好网-记录每日喜好的科技时尚娱乐生活

用 AI 解决更复杂的问题 当然,Callstrom 和他的团队看到了 AI 在更高级领域的巨大潜力。例如,他们与 Cerebras Systems 合作构建了一个基因组模型,用于预测哪种关节炎治疗对患者最有效,并且还在与 Microsoft 合作开发图像编码器和影像基础模型。8SB喜好网-记录每日喜好的科技时尚娱乐生活

他们与 Microsoft 的第一个影像项目是胸部 X 光。到目前为止,他们已经转换了 150 万张 X 光片,并计划在下一轮转换另外 1100 万张。Callstrom 解释说,构建图像编码器并不特别困难;复杂性在于使结果图像真正有用。8SB喜好网-记录每日喜好的科技时尚娱乐生活

理想情况下,目标是简化 Mayo 医生审查胸部 X 光的方式并增强他们的分析。例如,AI 可能识别插入气管内导管或中心静脉导管以帮助患者呼吸的位置。"但这可以更广泛,"Callstrom 说。例如,医生可以解锁其他内容和数据,如从胸部 X 光简单预测射血分数——或从心脏泵出的血液量。8SB喜好网-记录每日喜好的科技时尚娱乐生活

"现在你可以开始考虑更广泛尺度上的治疗反应预测,"他说。8SB喜好网-记录每日喜好的科技时尚娱乐生活

Mayo 在基因组学(DNA 研究)以及其他"组学"领域,如蛋白质组学(蛋白质研究)方面也看到了"令人难以置信的机遇"。AI 可以支持基因转录(复制 DNA 序列的过程),创建与其他患者的参考点,帮助为复杂疾病建立风险档案或治疗路径。8SB喜好网-记录每日喜好的科技时尚娱乐生活

"所以你基本上是将患者与其他患者进行映射,围绕一个队列建立每个患者,"Callstrom 解释说。"这就是个性化医疗真正要提供的:'你看起来像这些其他患者,这是我们应该治疗你以看到预期结果的方式。'目标实际上是在我们使用这些工具时让医疗保健回归人性。"8SB喜好网-记录每日喜好的科技时尚娱乐生活

但 Callstrom 强调,诊断方面的一切都需要更多工作。证明基因组学的基础模型适用于类风湿性关节炎是一回事;在临床环境中实际验证则是另一回事。研究人员必须从测试小数据集开始,然后逐步扩大测试组并与常规或标准治疗进行比较。8SB喜好网-记录每日喜好的科技时尚娱乐生活

"你不会立即说'嘿,让我们跳过甲氨蝶呤'[一种常用的类风湿性关节炎药物],"他指出。8SB喜好网-记录每日喜好的科技时尚娱乐生活

最终:"我们认识到这些[模型]有令人难以置信的能力,可以真正改变我们护理患者和以有意义的方式诊断的方式,使护理更以患者为中心或更具患者特异性,而不是标准治疗,"Callstrom 说。"我们关注的是在患者护理中处理的复杂数据。"8SB喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
日本导演神山健治执导 动画电影《指环王:洛汗之战》内地定档12月14日

日本导演神山健治执导 动画电影

11月19日

11-19 62阅读
曝iPhone 17全系首发3nm A19系列芯片:无缘台积电2nm工艺制程

曝iPhone 17全系首发3nm A19系列

11月19日

11-19 61阅读
红魔10 Pro系列发布:骁龙8至尊版+1.5K 144Hz“悟空屏”,起售价4999元

红魔10 Pro系列发布:骁龙8至尊版+

11-19 68阅读
可栗口语完成数百万元天使轮融资

可栗口语完成数百万元天使轮融资

近日,A

11-19 61阅读
新茶饮疯狂“24小时”

新茶饮疯狂“24小时”

零售

11-19 65阅读
“骗”来30+喜剧人,《大话大话西游》好一场内容共创|Talk专访蒋龙

“骗”来30+喜剧人,《大话大

作者 / 张   特采访、编辑 / 朱 

11-19 66阅读
于谦因釜山行爆红, 啥梗真没想到讲相声的他竟出演过这么多作品

于谦因釜山行爆红, 啥梗真

于谦明明就是一个讲相声的人,怎么

11-19 62阅读
炒股4年赚5千万的上海00后火了:我最近亏麻 舆论已影响自己生活

炒股4年赚5千万的上海00后

11月14日消息,近

11-19 61阅读
微念称与李子柒的案件已完全和解:账号其本人运营 品牌由微念经营

微念称与李子柒的案件已完

11月13日消息,日

11-19 63阅读
徐克执导!新《射雕英雄传》官宣定档2025大年初一 肖战饰演郭靖

徐克执导!新《射雕英雄传》

11月15日消息,今

11-19 66阅读
饥荒猪皮怎么获得?饥荒猪皮获得方法详细介绍

饥荒猪皮怎么获得?饥荒猪

饥荒猪皮怎么获得?猪皮是饥荒游戏里面的

11-19 68阅读
原神已然来临的花神诞祭任务攻略

原神已然来临的花神诞祭任

原神已然来临的花神诞祭是原神须弥地区

11-19 64阅读
《荒野大镖客:救赎》PC版显卡性能实测:缺乏诚意的移植!帧生成效果开倒车

《荒野大镖客:救赎》PC版显

11-19 66阅读
饥荒鱼竿怎么做?饥荒钓鱼竿制作材料详细介绍

饥荒鱼竿怎么做?饥荒钓鱼

饥荒鱼竿怎么做?在饥荒游戏里面,我们可以

11-19 79阅读
饥荒金色腰带有什么用?饥荒金色腰带用途详细介绍

饥荒金色腰带有什么用?饥

饥荒金色腰带有什么用?金色腰带是饥荒游

11-19 68阅读