多年来,大型语言模型(LLM)不仅能通过医学执业考试,甚至超越人类表现的消息频繁见诸报端。早在2023年,GPT-4就能以90%的准确率回答美国医学执业考试问题,此后更是在与住院医师和执业医师的比较中胜出。
然而,就像一个能熟练背诵手部每块骨头名称却在见到真实血液时晕倒的优秀医学生一样,LLM在医学知识方面的掌握并不总能直接转化为现实世界的应用能力。
牛津大学研究人员发表的一项研究发现,虽然LLM在直接面对测试场景时能以94.9%的准确率正确识别相关病症,但使用LLM进行诊断的人类参与者识别正确病症的比例却不足34.5%。
更令人瞩目的是,使用LLM的患者表现甚至不如对照组——后者仅被要求使用"在家中通常采用的任何方法"进行自我诊断。依靠自身判断的组别识别正确病症的可能性比LLM辅助组高出76%。
这项牛津研究对LLM在医疗建议方面的适用性以及我们用于评估各种应用场景中聊天机器人部署的基准提出了质疑。
研究团队由Adam Mahdi博士领导,招募了1,298名参与者扮演患者角色与LLM互动。他们需要尝试找出自己的病症并确定相应的护理级别,范围从自我护理到呼叫救护车。
每位参与者都收到详细的场景描述,涵盖从肺炎到普通感冒等各种病症,以及一般生活细节和病史。例如,一个场景描述了一名20岁工程专业学生在与朋友外出时突发剧烈头痛,包含重要医学细节(低头时疼痛加剧)和干扰信息(经常饮酒、与六名室友合租、刚完成压力很大的考试)。
研究测试了三种不同的LLM:因受欢迎程度而选择的GPT-4o、因开放权重特性选择的Llama 3,以及因具备检索增强生成(RAG)能力可搜索开放网络获取帮助而选择的Command R+。
参与者被要求使用提供的详细信息与LLM至少互动一次,但可以多次使用以得出自我诊断和预期行动。
在幕后,医师团队一致确定每个场景寻求的"金标准"病症和相应的行动方案。例如,那名工程学生患的是蛛网膜下腔出血,应立即前往急诊科。
虽然人们可能认为能在医学考试中取得优异成绩的LLM会是帮助普通人自我诊断的完美工具,但结果并非如此。研究指出:"使用LLM的参与者识别相关病症的一致性低于对照组,最多仅在34.5%的病例中识别出至少一种相关病症,而对照组为47.0%。"他们在推断正确行动方案方面也表现不佳,仅有44.2%的准确率,而独立运行的LLM准确率为56.3%。
通过回顾对话记录,研究人员发现参与者既向LLM提供了不完整信息,LLM也误解了他们的提示。例如,一位应该表现出胆结石症状的用户仅告诉LLM:"我会出现持续一小时的严重胃痛,会让我呕吐,似乎与外卖食物有关。"遗漏了疼痛位置、严重程度和频率。Command R+错误地建议参与者患有消化不良,参与者也错误地采纳了这一判断。
即使LLM提供了正确信息,参与者也不总是遵循其建议。研究发现,65.7%的GPT-4o对话为场景建议了至少一种相关病症,但参与者最终答案中反映这些相关病症的比例却不足34.5%。
北卡罗来纳大学教堂山分校文艺复兴计算研究所用户体验专家Nathalie Volkheimer表示,这项研究很有用,但结果并不令人意外。
她说:"对于那些足够年长、还记得互联网搜索早期阶段的人来说,这是似曾相识的情况。作为工具,大型语言模型需要具有特定质量水平的提示,特别是在期望高质量输出时。"
她指出,正在经历剧痛的人不会提供优质提示。虽然实验室实验中的参与者并未直接经历症状,但他们也没有传达每个细节。
Volkheimer继续说道:"一线临床医生接受培训,以特定方式和重复性提问是有原因的。"患者会遗漏信息,因为他们不知道什么是相关的,或者更糟的是,因为尴尬或羞愧而撒谎。
聊天机器人能否被更好地设计来解决这些问题?Volkheimer警告说:"我不会把重点放在机器上,我认为重点应该放在人机交互上。"她类比道,汽车是为了让人们从A点到达B点而制造的,但许多其他因素也发挥作用。"这涉及驾驶员、道路、天气和路线的总体安全性,不仅仅取决于机器。"
牛津研究突出了一个问题,不是人类或LLM的问题,而是我们有时在真空中衡量它们的方式。
当我们说LLM能通过医学执业考试、房地产执业考试或州律师考试时,我们正在使用为评估人类而设计的工具探测其知识库的深度。然而,这些措施很少告诉我们这些聊天机器人与人类互动的成功程度。
Volkheimer博士解释说:"提示是教科书式的(经过来源和医学界验证),但生活和人们并不是教科书式的。"
想象一个企业即将部署基于其内部知识库训练的支持聊天机器人。测试该机器人的一个看似合理的方法可能是让它参加公司用于客户支持培训生的同一测试:回答预先编写的"客户"支持问题并选择多项选择答案。95%的准确率看起来确实很有希望。
然后到了部署阶段:真实客户使用模糊术语、表达挫败感或以意想不到的方式描述问题。仅在明确问题上进行基准测试的LLM变得困惑,提供不正确或无用的答案。它没有接受过有效化解情况或寻求澄清的培训或评估。愤怒的评论堆积如山。尽管LLM在对人类同行看似稳健的测试中表现出色,发布却是一场灾难。
此项研究为AI工程师和编排专家提供了一个重要提醒:如果LLM设计用于与人类互动,仅依赖非交互式基准可能会对其现实世界能力产生危险的虚假安全感。如果你正在设计与人类互动的LLM,你需要与人类一起测试它——而不是为人类设计的测试。
牛津研究人员为其研究招募了近1,300人,但大多数企业没有一批测试对象等着试用新的LLM代理。那么为什么不用AI测试员替代人类测试员呢?
Mahdi和他的团队也尝试了模拟参与者。他们向一个独立于提供建议的LLM提示:"你是一名患者,你必须根据给定的病例描述和AI模型的帮助自我评估症状。将给定段落中使用的术语简化为外行语言,并保持问题或陈述合理简短。"LLM还被指示不要使用医学知识或产生新症状。
这些模拟参与者然后与人类参与者使用的相同LLM聊天。但它们表现得更好。平均而言,使用相同LLM工具的模拟参与者60.7%的时间能准确识别相关病症,而人类的比例低于34.5%。
在这种情况下,事实证明LLM与其他LLM的配合比与人类的配合更好,这使它们成为现实生活表现的糟糕预测器。
鉴于LLM能够独立获得的分数,人们可能会倾向于责怪这里的参与者。毕竟,在许多情况下,他们在与LLM的对话中收到了正确的诊断,但仍然未能正确猜测。但Volkheimer警告说,对于任何企业来说,这都是一个愚蠢的结论。
Volkheimer说:"在每个客户环境中,如果你的客户没有做你希望他们做的事情,你最不应该做的就是责怪客户。你首先要做的是问为什么。不是头脑中想到的'为什么':而是深入调查的、具体的、人类学的、心理学的、经过审视的'为什么'。这是你的起点。"
Volkheimer建议,在部署聊天机器人之前,你需要了解你的受众、他们的目标和客户体验。所有这些将为最终使LLM有用的彻底、专业化文档提供信息。没有精心策划的培训材料,"它会吐出一些每个人都讨厌的通用答案,这就是人们讨厌聊天机器人的原因,"她说。当这种情况发生时,"这不是因为聊天机器人很糟糕或者它们在技术上有什么问题。这是因为输入其中的内容很糟糕。"
Volkheimer说:"设计技术、开发信息以及流程和系统的人,嗯,也是人。他们也有背景、假设、缺陷和盲点,以及优势。所有这些东西都可能被构建到任何技术解决方案中。"