百川智能发布全链路领域增强金融大模型Baichuan4-Finance,整体准确率领先GPT-4o近20%

8个月前 科技 46观看
摘要 12月23日消息,百川智能发布全链路领域增强大模型Baichuan4-Finance。在高质量金融数据的基础上,通过行业首创的领域自约束训练方案,Baichuan4-Finance实现了金融能力和通用能力同步提升的效果,极大提高了金融

12月23日消息,百川智能发布全链路领域增强大模型Baichuan4-Finance。在高质量金融数据的基础上,通过行业首创的领域自约束训练方案,Baichuan4-Finance实现了金融能力和通用能力同步提升的效果,极大提高了金融场景的整体可用性。q6I喜好网-记录每日喜好的科技时尚娱乐生活

Baichuan4-Finance金融专业能力和场景应用能力领先GPT-4o近20%,在中国人民大学财政金融学院新近发布的评测体系FLAME以及国内主流开源金融评测基准FinancelQ上均登上榜首。q6I喜好网-记录每日喜好的科技时尚娱乐生活

据介绍,Baichuan4-Finance能够在效率提升、风控合规、客服、决策支持等诸多层面为金融行业带来全方位的价值提升。Baichuan4-Finance能够帮助金融从业者处理文档审核、客户咨询、产品营销等大量日常工作,还能依托深厚的金融专业知识和法律法规理解能力,为机构提供精准的风险识别和合规保障。此外,还可以凭借强大的数据分析能力为管理层提供专业的市场洞察和决策建议。q6I喜好网-记录每日喜好的科技时尚娱乐生活

目前,Baichuan4-Finance API已在百川智能官网正式上线。q6I喜好网-记录每日喜好的科技时尚娱乐生活

整体准确率领先GPT-4o近20%,多个金融评测榜单第一q6I喜好网-记录每日喜好的科技时尚娱乐生活

FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)是中国人民大学财政金融学院12月17日发布的金融评测体系(github地址:https://github.com/FLAME-ruc/FLAME/tree/main)。q6I喜好网-记录每日喜好的科技时尚娱乐生活

作为金融领域最新的评测体系,FLAME兼顾专业性和实用性,由两个方向的评测基准组成。其中,FLAME-Cer主要面向模型的专业金融能力评测,覆盖了CPA、CFA、FRM等14类权威金融资格认证;FLAME-Sce则侧重模型的场景应用能力,包含10个一级核心金融业务场景,21个二级细分金融业务场景,近百个三级金融应用任务。q6I喜好网-记录每日喜好的科技时尚娱乐生活

FLAME-Cer评测结果显示,Baichuan4-Finance在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%,整体准确率93.62%,大幅领先GPT-4o和XuanYuan3-70B-Chat,超出GPT-4o近20%。GPT-4o是金融领域公认的综合实力最强的通用模型之一,而XuanYuan3-70B-Chat则是国内首个开源中文金融大模型。q6I喜好网-记录每日喜好的科技时尚娱乐生活

在FLAME-Sce评测中,Baichuan4-Finance一级核心金融业务场景的整体可用率达84.15%,其金融数据计算、金融知识理论等场景的可用率更是超过90%,实际应用场景中的表现非常优秀。q6I喜好网-记录每日喜好的科技时尚娱乐生活

不仅如此,在国内主流开源金融评测基准FinanceIQ上Baichuan4-Finance同样超越了GPT-4o和XuanYuan3-70B,整体准确率达到79.23%,领先GPT-4o近13%。q6I喜好网-记录每日喜好的科技时尚娱乐生活

首创领域自约束训练方案,模型金融专项能力和通用能力同步提升q6I喜好网-记录每日喜好的科技时尚娱乐生活

如何让模型在提升专业能力的同时不损失通用能力,是当下大模型落地具体场景最大的阻碍。为解决这一问题,百川智能打造了一套全链路领域增强方案,该方案覆盖了高质量数据集构建、模型预训练、微调、强化学习等从模型研发到场景应用的全流程。q6I喜好网-记录每日喜好的科技时尚娱乐生活

在模型训练阶段,通过行业首创的领域自约束训练技术,百川智能实现了模型专项能力和通用能力同步提升的效果,极大提升了模型多元场景的可用性。而Baichuan4-Finance正是这一方案的最新成果,全链路金融领域增强让其既掌握了扎实的金融理论基础,又具备了丰富的多场景实践应用能力。q6I喜好网-记录每日喜好的科技时尚娱乐生活

具体而言,Baichuan4-Finance的高质量金融数据集全面且严谨,既包含金融专业教材与学术著作、顶级金融期刊论文、监管机构政策文件、金融法律法规等核心专业金融知识数据,也覆盖了金融专业问答集、企业财报与年度报告、金融类研究分析报告等实践应用类数据,为提升模型金融能力提供了良好的底层支撑。q6I喜好网-记录每日喜好的科技时尚娱乐生活

在此基础上,Baichuan4-Finance还在领域自约束训练过程中引入了更高精的通用数据,与高质量金融数据一起进行混合训练,最终实现了模型通用能力不下降,金融能力稳定增长的效果。q6I喜好网-记录每日喜好的科技时尚娱乐生活

此外,百川智能在后训练环节也做了大量增强工作,如:通过合成数据、指令数据对模型进行有监督的微调;在强化学习策略中,针对数学计算等金融领域特别关注的场景进行样本增强等,进一步提升了模型性能。q6I喜好网-记录每日喜好的科技时尚娱乐生活

值得一提的是,为了更好地助力金融企业将大模型应用到各种真实场景,百川智能还在官网发布了Baichuan4-Finance全链路领域增强的技术报告,详细阐述了包括“领域自约束训练”在内的各项技术细节。此举不仅将极大增强金融行业对大模型的认知,还将有效提升金融企业部署大模型的能力与意愿。q6I喜好网-记录每日喜好的科技时尚娱乐生活

据悉,目前百川智能已经服务了数千家客户,包括北电数智、完美世界游戏、爱奇艺、360集团、生学教育、爱学堂等各行业的领军企业,并且与信雅达、用友、软通动力、新致软件、达观数据、华胜天成等多家行业生态伙伴,以及华为、中科曙光等硬件厂商,中国移动、中国电信、中国联通等运营商达成合作,携手构建百川大模型生态。
q6I喜好网-记录每日喜好的科技时尚娱乐生活

q6I喜好网-记录每日喜好的科技时尚娱乐生活

q6I喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
大佬喊话,AI寒冬已来?

大佬喊话,AI寒冬已来?

OpenA

11-19 111阅读
海马体的“中年危机”

海马体的“中年危机”

写真

11-19 121阅读
徐工集团CVC基金备案成功

徐工集团CVC基金备案成功

2024

11-19 115阅读
“一听别人说‘清华系’,我就感觉压力山大”

“一听别人说‘清华系’,我就感觉

自从

11-19 107阅读
致命错误!Sam Altman发一张对比图,遭到大量吐槽

致命错误!Sam Altman发一张对比图

图片来源:由无界AI生成OpenAI联合

11-19 132阅读
脱离海马后,他们的那段故事就像是一场梦

脱离海马后,他们的那段故事

11-19 127阅读
金鸡奖这一夜,世态炎凉、江湖职位,在王骁身上体现得淋漓尽致

金鸡奖这一夜,世态炎凉、江

11-19 108阅读
《号手就位》主角为什么都选择入伍,最后他们如何了?

《号手就位》主角为什么都

《号手就位》是中国首部火箭军题

11-19 119阅读
THE BOYZ金善旴遭私生殴打 警方已经逮捕私生

THE BOYZ金善旴遭私生殴打

  11月14日,据韩媒报道称,男

11-19 100阅读
安徽省歌曲《徽风皖韵》原唱项亮月受邀出席第八届长三角地区道教论坛暨道教音乐会

安徽省歌曲《徽风皖韵》原

  从安徽省道教协会获悉,第八届长三

11-19 102阅读
《天穗之咲稻姬外传》确定制作 本篇Steam平台限时促销中

《天穗之咲稻姬外传》确定

Marvelous Inc.(代表取缔役社长:佐藤澄宣

11-19 130阅读
《模拟农场25》水稻种植终于实装 专业农户称赞超真实

《模拟农场25》水稻种植终

经典写实模拟农场游戏系列最新作《模

11-19 105阅读
《星空》DLC差评托德后悔:不该太早更新地面载具

《星空》DLC差评托德后悔:

《星空:破碎空间》DLC 发布后,玩家给出

11-19 105阅读
原神失物匿于繁华任务怎么做|失物匿于繁华任务攻略

原神失物匿于繁华任务怎么

失物匿于繁华是原神须弥地区魔神主线任

11-19 130阅读
饥荒超详细驯服牦牛技巧分享

饥荒超详细驯服牦牛技巧分

在饥荒游戏里面玩家可以驯服牦牛,而且根

11-19 120阅读