医疗复杂推理开源大模型——华佗GPT-o1

4个月前 科技 25观看
摘要图片来源:由无界AI生成在医学领域涉及大量复杂的推理过程,从症状分析到疾病诊断,每一步都需要综合考虑众多因素。例如,在诊断一种罕见疾病时,医生不仅要熟悉各种疾病的症状表现,还要了解患者的病史、家族遗传史、生活环境等


O5I喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

在医学领域涉及大量复杂的推理过程,从症状分析到疾病诊断,每一步都需要综合考虑众多因素。例如,在诊断一种罕见疾病时,医生不仅要熟悉各种疾病的症状表现,还要了解患者的病史、家族遗传史、生活环境等多方面信息,通过层层推理才能做出准确的判断。O5I喜好网-记录每日喜好的科技时尚娱乐生活

为了辅助医生实现更高效的推理,香港中文大学(深圳)和深圳市大数据研究院联合开源了专用于医疗领域的复杂大模型——华佗GPT-o1。O5I喜好网-记录每日喜好的科技时尚娱乐生活

开源地址:https://huggingface.co/FreedomIntelligence/HuatuoGPT-o1-7BO5I喜好网-记录每日喜好的科技时尚娱乐生活

Github:https://github.com/FreedomIntelligence/HuatuoGPT-o1O5I喜好网-记录每日喜好的科技时尚娱乐生活


O5I喜好网-记录每日喜好的科技时尚娱乐生活

高质量医学数据集


O5I喜好网-记录每日喜好的科技时尚娱乐生活

开发高质量可验证医学数据集是华佗GPT-o1实现高质量推理的重要基石,研究人员从MedQA-USMLE和MedMCQA训练集中精心收集了192K医学多项选择题。O5I喜好网-记录每日喜好的科技时尚娱乐生活

涵盖了内科学、外科学、妇产科学、儿科学、神经病学等众多医学学科的知识点,能全面地反映了医学领域的知识体系。O5I喜好网-记录每日喜好的科技时尚娱乐生活

但原始数据存在诸多问题,需要进行严格筛选。首先,许多题目过于简单,无法有效训练模型的复杂推理能力。例如,一些题目仅考查单一知识点,且答案一目了然,对于模型来说缺乏挑战性。其次,部分题目答案不唯一或存在歧义,这会给模型的学习和验证带来困扰。此外,一些题目不适合转化为开放式问题,不利于模型进行深入推理。O5I喜好网-记录每日喜好的科技时尚娱乐生活

为了筛选出合适的题目,研究人员采用了多轮筛选方法。第一轮,利用小型语言模型对题目进行初步筛选,去除那些所有小型模型都能轻易回答正确的简单题目。第二轮,由人工对剩余题目进行审核,排除答案不明确或存在歧义的题目。O5I喜好网-记录每日喜好的科技时尚娱乐生活

最后,借助GPT-4o模型对筛选后的题目进行进一步优化和验证,确保每个题目都具有明确的、唯一的正确答案,并且能够转化为开放式问题。经过层层筛选,最终得到了一个包含40K可验证医学问题的数据集。O5I喜好网-记录每日喜好的科技时尚娱乐生活


O5I喜好网-记录每日喜好的科技时尚娱乐生活

两阶段训练模式


O5I喜好网-记录每日喜好的科技时尚娱乐生活

在第一阶段,华佗GPT-o1首先会对给定的可验证医学问题进行初步分析,生成一个初始的思维链(CoT)和答案。例如,对于一个关于患者症状分析的问题,模型可能会根据症状的表现、出现的时间顺序、伴随症状等因素,初步推测可能的疾病范围,并给出一个初步诊断。O5I喜好网-记录每日喜好的科技时尚娱乐生活

然后,医学验证器会对这个初始答案进行严格验证。如果答案不正确,模型将启动迭代优化过程。它会从预先设定的四种搜索策略(探索新路径、回溯、验证、修正)中随机选择一种,对之前的推理过程进行改进。O5I喜好网-记录每日喜好的科技时尚娱乐生活

假设模型在诊断过程中忽略了某个重要症状,导致初步诊断错误。如果选择探索新路径策略,模型会尝试从新的角度分析症状,考虑其他可能的疾病因素;如果选择回溯策略,模型会回到之前的推理步骤,重新审视症状与疾病之间的关联;O5I喜好网-记录每日喜好的科技时尚娱乐生活

如果选择验证策略,模型会对当前的推理过程进行再次评估,检查是否存在逻辑漏洞;如果选择修正策略,模型会根据验证器的反馈,纠正之前推理中的错误,调整诊断方向。O5I喜好网-记录每日喜好的科技时尚娱乐生活

模型会不断重复这个过程,直到找到正确的答案。每次迭代都会生成新的CoT和答案,验证器会继续对新答案进行验证,直到答案被确认为正确为止。通过这种方式,模型能够在不断的尝试和改进中,学习到正确的医学推理方法,提高推理的准确性和可靠性。O5I喜好网-记录每日喜好的科技时尚娱乐生活

当模型成功找到正确的推理轨迹后,这个轨迹将被重新格式化为一种更加自然、连贯的复杂CoT形式。例如,原始的推理过程可能是一系列分散的步骤和结论,经过格式化后,会变成一个逻辑清晰、语言流畅的推理叙述,使用自然的过渡词(如“嗯”“而且”“等等”)将各个步骤有机地连接起来,使整个推理过程更加符合人类的思维方式。O5I喜好网-记录每日喜好的科技时尚娱乐生活

在格式化过程中,模型会突出关键的推理步骤和依据,使复杂CoT能够清晰地展示模型的思考过程。然后,模型会根据这个复杂CoT生成一个正式的回答,这个回答不仅包含最终的结论,还会对推理过程进行简要总结,以便更好地与用户进行沟通和解释O5I喜好网-记录每日喜好的科技时尚娱乐生活

通过构建SFT训练数据,模型能够学习到如何在回答问题之前进行深入的思考和推理,将复杂的医学知识和推理过程整合起来,形成一个完整的解决方案。这种训练方式有助于提高模型在实际应用中的表现,使其能够更好地应对各种复杂的医学问题。O5I喜好网-记录每日喜好的科技时尚娱乐生活


O5I喜好网-记录每日喜好的科技时尚娱乐生活

实验数据


O5I喜好网-记录每日喜好的科技时尚娱乐生活

为了评估华佗GPT-o1的性能,在MedQA、MMLU-Pro、MedMCQA、PubMedQA等医学基准中进行了综合测试。结果显示,华佗GPT-o1-70B版本超越了其他所有开源模型,在多个数据集上取得了领先成绩。O5I喜好网-记录每日喜好的科技时尚娱乐生活

例如,在MMLU-Pro的健康和生物学赛道上,其准确率分别达到了73.6%和71.0%,在GPQA的遗传学和分子生物学赛道上,准确率也分别达到了66.5%和56.2%。O5I喜好网-记录每日喜好的科技时尚娱乐生活

AI医疗
展开全文
猜你感兴趣
戴森设计大奖国际20强名单出炉

戴森设计大奖国际20强名单出炉

【锋巢网】首次有两支中国大陆赛

11-19 70阅读
小杨哥缺席,抖音还能玩转双11吗?

小杨哥缺席,抖音还能玩转双11吗?

采写/尹冰雪‍编辑/万天南“

11-19 71阅读
极氪总裁提醒用户警惕杀猪盘:低价买车是诱饵

极氪总裁提醒用户警惕杀猪盘:低价

11月19日

11-19 70阅读
凯迪拉克公布2026款Vistiq电动SUV细节,明年上市

凯迪拉克公布2026款Vistiq电动SU

11-19 66阅读
千诀科技完成数千万元天使轮融资

千诀科技完成数千万元天使轮融资

近日,

11-19 65阅读
“资源弃子”杨幂还是被踢出了局,和嘉行解约的背后是被闺蜜插刀

“资源弃子”杨幂还是被踢

11-19 70阅读
毒铁锅 遭央视多次曝光,把美食变成 毒药 ,大家应提高警惕(遭央视多次曝光)

毒铁锅 遭央视多次曝光,把

前言 前一段时间,我国市面上出现了

11-19 68阅读
味道研究所 | 橘黄变棕红 这口Q糯甜香深深烙印在你心间(味道研究所橘黄变棕红)

味道研究所 | 橘黄变棕红

© |菜头 遂昌乡村有着独特的

11-19 70阅读
要回归了?李奈映透露丈夫元斌正在选剧本 有望复出拍戏

要回归了?李奈映透露丈夫元

47岁韩国男星元斌,凭着帅气

11-19 63阅读
李子柒为何依然重要

李子柒为何依然重要

自从李子柒上次

11-19 67阅读
互动影游《新世界:暗影成双》Steam页面开放 发行日期待定

互动影游《新世界:暗影成双

今日(11月16日),双人合作类互动影游《新

11-19 67阅读
《GTA三部曲》开发者不满名字被删 实际只修改了开场

《GTA三部曲》开发者不满

《GTA三部曲》开发商 Grove Street Ga

11-19 69阅读
20年后焕发新生 《半条命2》在线玩家人数冲上巅峰

20年后焕发新生 《半条命2

根据SteamDB的数据显示,围绕《半条命2

11-19 68阅读
饥荒存档在哪个文件夹?饥荒存档位置一览

饥荒存档在哪个文件夹?饥

饥荒存档在哪个文件夹?饥荒游戏里面玩家

11-19 165阅读
饥荒san值怎么恢复?饥荒恢复san值的途径一览

饥荒san值怎么恢复?饥荒恢

san值是饥荒游戏里面的一个重要数值,玩

11-19 72阅读