百川智能发布全场景深度思考模型Baichuan-M1-preview:聚齐三大推理能力,解锁医疗循证模式

3个月前 科技 29观看
摘要 1月24日消息,据百川大模型公众号消息,百川智能发布了国内首个全场景深度思考模型Baichuan-M1-preview。该模型是国内目前唯一同时具备语言、视觉和搜索三大领域推理能力的模型。在数学、代码等多个权威评测

1月24日消息,据百川大模型公众号消息,百川智能发布了国内首个全场景深度思考模型Baichuan-M1-preview。该模型是国内目前唯一同时具备语言、视觉和搜索三大领域推理能力的模型。在数学、代码等多个权威评测中,Baichuan-M1-preview的表现均超越了o1-preview,展现了其在多领域推理方面的独特优势。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

此外,作为国内唯一专注医疗领域的头部大模型公司推出的深度思考模型,它还解锁了医疗循证模式,实现了从医疗证据检索到深度推理的完整端到端服务,能够快速、精准地回答医疗临床、科研问题。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

Baichuan-M1-preview现已在百小应中正式上线,在深度思考模式下不仅能准确解答数学、代码、逻辑推理等问题,面对复杂医疗问题,还能像资深医疗专家一样,通过深度思考构建严谨的医学推理过程,为用户提供全面的疾病分析和个性化健康管理建议。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

为了更好地繁荣AI医疗生态,助力医疗事业发展,百川智能还同时推出了行业首个开源医疗增强大模型Baichuan-M1-14B,其医疗能力超越了更大参数量的Qwen2.5-72B,与o1-mini相差无几。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

多项能力超越o1-preview,解锁医疗循证模式Ymx喜好网-记录每日喜好的科技时尚娱乐生活

作为一个全场景深度思考模型,Baichuan-M1-preview的能力全面,具备强大的语言推理、视觉推理及搜索推理能力。语言推理方面,其在AIME和Math等数学基准测试,以及LiveCodeBench代码任务上的成绩均超越了o1-preview等模型。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

视觉推理方面,在MMMU-val、MathVista等权威评测中的成绩,超越了GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview等国内外头部模型。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

Baichuan-M1-preview的另一大亮点是解锁了医疗循证模式。在面对复杂医学问题时,会将专业可靠的医疗知识作为推理依据,帮助用户做出最佳的医疗决策。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

为实现这一能力,百川智能自建了涵盖亿级条目的循证医学知识库,囊括了国内外海量医学论文、权威指南、专家共识、疾病与症状解析、药品说明等专业医疗内容,且以天为单位进行动态更新,及时收录医疗领域的新突破、新进展。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

众所周知,医学知识多样性强、因果关系复杂。因此,即使构建了庞大的医疗知识库,在调用其中的医学知识,尤其叠加了互联网上搜索到的医疗信息时依然会遇到部分医学数据、医学理论不一致的情况。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

针对这一问题,医疗循证模式能运用医学知识和证据评估标准,对证据进行多层分级,并对不同权威等级的证据进行专业分析与整合,精准识别各类权威信息的来源和可信度,从而避免因信息混杂导致的误判,然后基于这些医学证据进行可靠、准确的医学推理,最终提供可信赖的医疗答案。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

通过“医疗循证模式”,Baichuan-M1-preview实现了从证据检索到深度推理的完整端到端服务,能够有效地解决医疗场景中信息过载、不确定性和碎片化等痛点。无论是医生面对复杂病案,还是患者寻求权威建议,它都能通过“摆事实、讲道理”的循证方式提供言之有物、有理有据的解答。不仅能在临床场景中帮助医生提升诊疗效率,在医学科研场景中大幅缩短科研探索时间,还能帮助普通用户更好地理解自身健康状况,帮助患者科学管理生活方式,提升治疗效果。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

行业首个开源医疗增强通用大模型 ,Baichuan-M1-14B医疗能力超越Qwen2.5-72BYmx喜好网-记录每日喜好的科技时尚娱乐生活

为了推动AI技术在医疗领域的创新发展,增强AI医疗技术的透明度和可信性,提高医疗服务的可及性,繁荣AI医疗生态,百川智能还开源了Baichuan-M1-preview的小尺寸版模型Baichuan-M1-14B。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

作为行业首个开源医疗增强通用大模型Baichuan-M1-14B的表现非常优异,不仅在cmexam、clinicalbench_hos、clinicalbench_hos、erke等权威医学知识和临床能力评测上的成绩超越了更大参数量的Qwen2.5-72B-Instruct,并且与o1-mini也相差无几。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

为了提升Baichuan-M1-14B的医疗能力,百川智能多管齐下:数据构建方面,面向细分医疗场景,收集了万亿级 token 的严肃医疗数据,涵盖了千万级的中/英文专业医疗论文、院内真实中/英文医疗病例,亿级的医疗问答、医疗问诊、临床数据等,还对全网数据进行了包括医疗科室、医疗内容以及医疗价值在内的分类评估,确保模型能学习到有价值且全面的医疗知识。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

在此基础上,百川智能还针对病例、医学教材、医学指南等不同类别的高质量医疗数据生成了超千亿 token 的多样化数据,包含了医疗复杂决策推理链条、决策依据以及问答对等多样化形式。这些合成数据拥有丰富的知识呈现形式以及与医生一致的思维过程,进一步强化了Baichuan-M1-14B的医学知识能力和医疗推理能力。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

进入到模型训练阶段,百川智能运用行业首创的多阶段领域提升方案,将整个训练过程分为通识提升、医疗基础知识提升、医疗进阶知识提升三个阶段,依次提升模型的基础语言、高阶及疑难病症应对等能力。此外还在 CoT 训练框架中创新的引入了ELO强化学习法,优化思维链路径,避免传统奖励模型偏差,有效提升了模型的生成质量与逻辑推理能力。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

Baichuan-M1-preview是百川智能在AI医疗领域的又一次重要突破,为其实现“造医生、改路径、促医学”的AI医疗愿景提供了有力支撑。于此同时,Baichuan-M1-14B开源模型则为中国AI医疗健康生态建设提供了强大助力。百川智能不仅希望加速AI技术在医疗领域的广泛应用,更旨在激发更多创新力量,共同推动中国医疗健康生态的持续进步,助力实现更公平、更高效的高质量医疗服务。Ymx喜好网-记录每日喜好的科技时尚娱乐生活

Ymx喜好网-记录每日喜好的科技时尚娱乐生活

Ymx喜好网-记录每日喜好的科技时尚娱乐生活

Ymx喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
雷军再回应小米SU7 Ultra车模难抢:行业自动化程度较低,产能严重不足

雷军再回应小米SU7 Ultra车模难

11 月

11-19 65阅读
2025款宝骏悦也Plus发布:配备灵眸智驾2.0 Max,定价10.38万

2025款宝骏悦也Plus发布:配备灵眸

11-19 65阅读
一家早期科技基金,今年投了10个亿

一家早期科技基金,今年投了10个亿

周期

11-19 68阅读
山东新起点完成2000万元A轮融资

山东新起点完成2000万元A轮融资

近日,

11-19 67阅读
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”

Scaling Law遭遇瓶颈,OpenAI被曝

文章来源:量子位图片来源:由无界AI

11-19 65阅读
《永夜星河》三折叠剧情,怎么「折」都有面儿

《永夜星河》三折叠剧情,怎

作者 / 郑容和编辑 / 朱   婷运营

11-19 67阅读
味道研究所 | 橘黄变棕红 这口Q糯甜香深深烙印在你心间(味道研究所橘黄变棕红)

味道研究所 | 橘黄变棕红

© |菜头 遂昌乡村有着独特的

11-19 70阅读
余凯宁个人资料, 余凯宁原名余天翊

余凯宁个人资料, 余凯宁原

余凯宁,原名余天翊,演员。1994年9月

11-19 67阅读
“重温经典”电视频道火爆:超6000万户 稳居收视率首位

“重温经典”电视频道火爆

11月18日消息,根

11-19 62阅读
重装机兵4失落密码大全_重装机兵4所有失落密码一览

重装机兵4失落密码大全_重

失落密码是《重装机兵4》游戏里面的一

11-19 189阅读
新斗罗大陆兑换码,2024新斗罗大陆礼包兑换码

新斗罗大陆兑换码,2024新

新斗罗大陆是一款十分好玩的手游,如果你

11-19 70阅读
小小突击队礼包码,小小突击队周年礼包码2023.9

小小突击队礼包码,小小突击

小小突击队礼包码来啦!这次为大家带来的

11-19 65阅读
原子之心激光模块解谜攻略

原子之心激光模块解谜攻略

原子之心游戏里面有一个被动安保激光模

11-19 73阅读
原子之心冰箱在哪?原子之心冰箱位置详细介绍

原子之心冰箱在哪?原子之

原子之心冰箱在哪?原子之心游戏里面那台

11-19 70阅读