DeepSeek掀起低成本革命,这个国产大模型怎么兼顾高精度、低能耗?

6个月前 科技 29观看
摘要图片来源:由无界AI生成2025年开年,DeepSeek在国内外大模型行业掀起了地震。除了深度推理模型DeepSeek-R1在回答问题上的表现优异之外,DeepSeek的存在,给国内大模型圈注入了紧张又鲜活的空气。其一,凭借技术优势,DeepSeek一


8Wk喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

2025年开年,DeepSeek在国内外大模型行业掀起了地震。除了深度推理模型DeepSeek-R1在回答问题上的表现优异之外,DeepSeek的存在,给国内大模型圈注入了紧张又鲜活的空气。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

其一,凭借技术优势,DeepSeek一举进入国际大模型头部梯队,这给国内大模型公司看到了弯道超车的可能性。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

其二,DeepSeek的训练成果,打破了算力受限的问题,证明通过算法优化,同样可以以低算力训练出高质量的模型。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

当算力“卡脖子”的隐忧被放下,兼顾能耗和精度的大模型应该解决哪些问题?在这个层面上,国内大模型公司纷纷交出了各自的答卷。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

最近,由中国科学院自动化所孵化的AI企业中科闻歌发布的雅意大模型旗舰版——YAYI-Ultra在破解大模型落地"精度-能耗"困局前给出了自己的答案。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

作为覆盖全球100+模型的权威评测体系,OpenCompass榜单历来是观察大模型技术路线的"晴雨表",在其近日发布的OpenCompass大模型公开学术榜单中,中科闻歌YAYI-Ultra,以64.5分首次闯入前十,成为TOP10中五个中国大模型之一。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

在OpenCompass最新大语言模型公开学术实时榜单中,YAYI-Ultra排名综合得分64.5,排名第十,其中:8Wk喜好网-记录每日喜好的科技时尚娱乐生活

代码生成:LiveCodeBench排名第五,表现优于GPT-4o-20241120版本8Wk喜好网-记录每日喜好的科技时尚娱乐生活

复杂指令理解:IFEval排名第九8Wk喜好网-记录每日喜好的科技时尚娱乐生活

知识推理能力:MMLU-Pro排名第九8Wk喜好网-记录每日喜好的科技时尚娱乐生活

在侧重中文理解的C-Eval评测中,YAYI-Ultra在允许自主验证的公开访问榜单位列第二,展现了在中文场景下的技术优势。8Wk喜好网-记录每日喜好的科技时尚娱乐生活


一手实测:超长文输出

复杂任务规划精准拿捏

根据官方信息,YAYI-Ultra在图表理解、复杂任务、长文理解与生成方面表现突出,我们立马上手从六个维度(多模态图表深度理解、复杂图像理解、复杂任务智能规划(Function Call)、数据统计分析及超长文本理解与生成)实测下YAYI-Ultra表现到底如何。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

01 视觉理解再升级:懂语言,更懂图表8Wk喜好网-记录每日喜好的科技时尚娱乐生活

上来我们先来读个图表试试。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

prompt:2000年前后,哪个价格区间的物业费占比变化最多?8Wk喜好网-记录每日喜好的科技时尚娱乐生活


8Wk喜好网-记录每日喜好的科技时尚娱乐生活

YAYI-Ultra可以准确识别柱状图中的不同颜色和数字,充分理解图表并给出回答。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

除了中文场景外,在多语言场景中,YAYI-Ultra也能够准确理解并遵循用户指令,提供跨语言的精准回复。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

prompt:How did the distribution of agriculture-related employment change between 2012 and 2022? Did it increase or decrease, and by what percentage or amount? Answer in Chinese。8Wk喜好网-记录每日喜好的科技时尚娱乐生活


8Wk喜好网-记录每日喜好的科技时尚娱乐生活

可以看到,在视觉理解方面,针对跨语言多模态对齐、多图推理、可变分辨率等技术难点,YAYI-Ultra全面升级,增强了模型在跨语言图表理解、多图表问答、多模态指令遵循等方面的能力,不仅能轻松应对堆积条形图、散点图、混合图表等复杂图表场景,在图表重绘、图表转换等任务上也表现突出。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

02 表格智解:万千表格不在话下8Wk喜好网-记录每日喜好的科技时尚娱乐生活

在工作中,复杂报告统计费时又费力,我们“喂”给YAYI-Ultra一张包含行业普通报告、行业深度报告、公司普通报告三种类型交替出现的表格,YAYI-Ultra准确统计出不同类型报告的数量。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

prompt:每种报告类型的数量是多少?8Wk喜好网-记录每日喜好的科技时尚娱乐生活


8Wk喜好网-记录每日喜好的科技时尚娱乐生活

当涉及不规则表格时,YAYI-Ultra依然能够精准解析并提取关键数据。以下表格包含总分结构及复杂数据表述,YAYI-Ultra能够准确理解表格中的模型类型、方法及局部性指标变化数值,并完成对比分析。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

prompt:哪个基座模型使用IKE方法后局部性下降最多?8Wk喜好网-记录每日喜好的科技时尚娱乐生活


8Wk喜好网-记录每日喜好的科技时尚娱乐生活

在统计数据理解方面,可以看出YAYI-Ultra重点增强了表格问答中复杂排版理解、跨语言问答等能力。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

从金融报告、学术论文,到包含嵌套结构的复杂表格,YAYI-Ultra都能精准定位信息、理解用户意图;同时,模型也能够在跨语言表格问答场景中,提供高效、清晰的解答。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

03 Function Call:复杂任务智能规划8Wk喜好网-记录每日喜好的科技时尚娱乐生活

继续上难度,我们让YAYI-Ultra绘制一下去年奥运会中国队金、银、铜奖牌数量折线图(随时间变化)8Wk喜好网-记录每日喜好的科技时尚娱乐生活

首先可以看到,YAYI-Ultra准确理解了用户意图,确定“去年奥运会”指的是巴黎奥运会,并制定出详细的任务规划;接下来,模型通过搜索引擎获取巴黎奥运会中国队金、银、铜牌相关数据(包括91枚奖牌的类型及获得时间);再将这些奖牌数据进行梳理,归类分组、按时排序,并生成代码,通过调用代码解释器,完成折线图绘制。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

YAYI-Ultra之所以能够完成这一系列的复杂任务拆解与规划,离不开其增加的工具调用能力,主要包含搜索引擎、代码解释器、图像解析、天气等基础工具;新闻热榜追踪、传播影响力分析等特色垂直领域工具。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

模型显著增强了在多工具串行调用场景下的规划合理性,同时提升了复杂搜索场景下的信息收集能力。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

04 多模态输出:图文并茂,直观简洁8Wk喜好网-记录每日喜好的科技时尚娱乐生活

在文献阅读或者信息收集过程中,我们通常需要从多篇文档中查找、分析特定信息(如数值变化、实验结果等),现在一句话就能找到想要的内容,并且YAYI-Ultra在文字分析描述的基础上,可同步给出对应的图片内容。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

比如,提问:The percentage of different behaviors under different collaborative strategies8Wk喜好网-记录每日喜好的科技时尚娱乐生活

YAYI-Ultra根据问题,从用户构建的“人工智能论文知识库”中识别相关的多篇人工智能论文,并据此进行回答。答案中不仅有文字,还在对应的引用位置给出了原始图片,大大提升了阅读体验及答案可靠性。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

05 全栈长文:吞吐万言,下笔如神8Wk喜好网-记录每日喜好的科技时尚娱乐生活

最让人眼前一亮的要属超长文输出,YAYI-Ultra支持最长20万字输入和10万字超长输出,形成从“输入理解”到“内容创作”的全链路长文本能力闭环。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

YAYI-Ultra支持联网智能创作与文献锚定创作双模式,并将长文写作任务拆解为更小、更可控的子任务(先生成大纲,再根据大纲生成全文),这样有效保证了文本结构,提升长文生成质量。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

● 联网智能创作:联网收集信息完成创作8Wk喜好网-记录每日喜好的科技时尚娱乐生活

prompt:写一篇30000字的中国儒家文化发展历史分析报告8Wk喜好网-记录每日喜好的科技时尚娱乐生活

 文献锚定创作:划定知识边界精准写作8Wk喜好网-记录每日喜好的科技时尚娱乐生活

prompt:请根据参考资料写一篇长文,写作的主题是“通用人工智能解决方案:创新与效率的完美结合”8Wk喜好网-记录每日喜好的科技时尚娱乐生活

06 数据分析:精准求解,可视交互8Wk喜好网-记录每日喜好的科技时尚娱乐生活

最后,我们也针对基础的数据分析和可视化图表绘制进行了实测,YAYI-Ultra准确完成分析、计算和图表绘制任务。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

prompt:根据表格,计算人均月收入,然后计算月收入与人均月收入的差值,绘制一个柱形图,横轴是名字,纵轴是差值,标题是“每人收入与平均值差距”。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

YAYI-Ultra根据用户要求,通过Python of Thought(POT)能力,生成Python代码并执行,精准完成了统计推断、矩阵运算、数值优化等数值密集型任务。8Wk喜好网-记录每日喜好的科技时尚娱乐生活


8Wk喜好网-记录每日喜好的科技时尚娱乐生活

从“大水漫灌”到“精准匹配”

YAYI-Ultra用灵活专家配置

突破大模型落地瓶颈

当前,AI大模型落地正面临“能力-成本”剪刀差扩大的关键节点。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

据IDC最新报告显示,企业在AI大模型落地过程中,面临模型精度不能完全满足业务需求的问题;同时,92%的企业认为在大模型工程化落地阶段,缺少算力资源是最大的挑战。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

中科闻歌雅意技术团队透露,YAYI-Ultra是以多领域能力为特色的混合专家模型,为了提升在不同领域专业任务上的表现,采用灵活的专家配置模式,支持数学、代码、金融、舆情、中医、安全等多种领域专家组合,能显著缓解稠密模型在垂直领域迁移过程中普遍存在的“跷跷板”现象,可针对不同领域需求,为行业提供"高精度、低能耗"的智能化解决方案。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

譬如,在媒体领域,中科闻歌推出红旗3.0融媒体智能平台,基于YAYI能力,帮助客户将内容创作时间缩短30%-50%,内容发布频率提升了20%-40%,某客户在引入自动化审核能力后,内容差错率从5%降至0.5%左右,目前已广泛应用于新华社、央视、中国日报等头部媒体。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

中科闻歌红旗3.0融媒体智能平台8Wk喜好网-记录每日喜好的科技时尚娱乐生活

在医疗领域,基于YAYI的大医金匮中医大模型,可精准诊断500余种常见病症,为患者提供个性化的治疗方案,经临床专家测评辨证推理准确率高达90%,在中医师资格考试模拟测试中表现优异,准确率超过94%,并面向C端用户推出了“大医金匮”中医健康管理APP。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

中国中医科学院&中科闻歌 大医金匮中医健康管理APP8Wk喜好网-记录每日喜好的科技时尚娱乐生活

在财税领域,基于YAYI的财税知识大模型,经专项测评,模型回答准确率90.1%,高于其他同类型模型,在接入大模型后,客户实现24小时不间断的咨询服务,使得用户减少排队时间约50%,用户满意度提升超过30%。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

航天信息与中科闻歌联合研发 财税知识大模型8Wk喜好网-记录每日喜好的科技时尚娱乐生活

当前,YAYI-Ultra(yayi.wenge.com)已在官网开放数据分析、知识库文献解析、超长文写作功能体验,感兴趣的小伙伴也可以登录试用。8Wk喜好网-记录每日喜好的科技时尚娱乐生活

AI芯片 大模型 AI算力
展开全文
猜你感兴趣
问界理想的新擂台:问界M8 VS 理想L8

问界理想的新擂台:问界M8 VS 理想

要说近年来什么行业最“卷”,相信

11-19 107阅读
小米米家智能蒸烤箱 S1 30L 预售:1599 元享蒸烤炸炖四合一

小米米家智能蒸烤箱 S1 30L 预售

11-19 123阅读
红魔10 Pro系列发布:骁龙8至尊版+1.5K 144Hz“悟空屏”,起售价4999元

红魔10 Pro系列发布:骁龙8至尊版+

11-19 110阅读
投中的播客栏目,叫“大北窑14F”

投中的播客栏目,叫“大北窑14F”

投中

11-19 125阅读
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”

Scaling Law遭遇瓶颈,OpenAI被曝

文章来源:量子位图片来源:由无界AI

11-19 111阅读
中国电影出海专业书刊《走向世界:华语电影的跨国流通与市场策略》正式发布

中国电影出海专业书刊《走

  在首届广州电影产业博览交易会上

11-19 121阅读
山东卫视《中华家庭诗词擂台赛》 共品大宋“战狼”辛弃疾的峥嵘岁月

山东卫视《中华家庭诗词擂

  “品诗词之美,传诗礼家风”,由山东

11-19 108阅读
扁鹊归宿地的怅惘(扁鹊归宿地的怅惘)

扁鹊归宿地的怅惘(扁鹊归宿

关键词:神医扁鹊 气死回生 讳疾忌医

11-19 109阅读
时隔3年正式回归连更2条作品 李子柒:还有存货正在剪

时隔3年正式回归连更2条作

11月12日消息,时

11-19 93阅读
日本导演神山健治执导 动画电影《指环王:洛汗之战》内地定档12月14日

日本导演神山健治执导 动

11月19日消息,今

11-19 122阅读
和平精英国际服怎么选择国家?和平精英国际服改国籍方法

和平精英国际服怎么选择国

《和平精英国际服》是蓝洞和腾讯联合出

11-19 203阅读
饥荒联机版怎么调中文?饥荒联机版中文设置方法

饥荒联机版怎么调中文?饥荒

饥荒联机版是目前很多玩家在玩的一个版

11-19 119阅读
无畏契约新手攻略_无畏契约攻略图文大全

无畏契约新手攻略_无畏契

拳头公司最新游戏《瓦罗亚特》国服版叫

11-19 128阅读
原神疗养观察任务流程|原神疗养观察攻略

原神疗养观察任务流程|原

原神疗养观察是游戏中须弥地区魔神任务

11-19 104阅读
饥荒辣椒酱制作方法及制作材料分享

饥荒辣椒酱制作方法及制作

辣椒酱是饥荒游戏里面的一个特殊食物,不

11-19 138阅读