星火深度推理大模型X1发布,底层4.0Turbo升级后实力如何?

3个月前 科技 25观看
摘要 图源:大模型之家1月15日,科大讯飞官方发布了星火深度推理模型X1、星火4.0Turbo底座升级、星火语音同传大模型。其中备受关注的星火深度推理模型X1,是国内首个基于全国产算力平台训练的具备深度

星火深度推理大模型X1发布,底层4.0Turbo升级后实力如何?3rf喜好网-记录每日喜好的科技时尚娱乐生活

图源:大模型之家

1月15日,科大讯飞官方发布了星火深度推理模型X1、星火4.0Turbo底座升级、星火语音同传大模型。3rf喜好网-记录每日喜好的科技时尚娱乐生活

其中备受关注的星火深度推理模型X1,是国内首个基于全国产算力平台训练的具备深度思考和推理能力的大模型。与通用大模型相比,星火深度推理模型X1解题过程更接近人类的“慢思考”方式,并且用更少的算力,多项指标国内第一。3rf喜好网-记录每日喜好的科技时尚娱乐生活

星火深度推理大模型X1发布,底层4.0Turbo升级后实力如何?3rf喜好网-记录每日喜好的科技时尚娱乐生活

图源:科大讯飞3rf喜好网-记录每日喜好的科技时尚娱乐生活

在发布会直播中,主播使用了2024年数学高考试卷、美国AIME奥数竞赛题等来进行演示,表现流畅,作为国内首个基于全国产算力平台训练的星火深度推理模型X1和升级后的星火4.0 Turbo在期待值上拉满,大模型之家在第一时间入手实测,来体验一下讯飞星火的最新成果。3rf喜好网-记录每日喜好的科技时尚娱乐生活

013rf喜好网-记录每日喜好的科技时尚娱乐生活

 

深度推理模型X1更像AI智能体

在官方的介绍中,星火深度推理模型X1能够覆盖小学、初中、高中、大学全学段数学,输入或拍照数学题目复杂问题都能解答。3rf喜好网-记录每日喜好的科技时尚娱乐生活

大模型之家开场体验中,使用了2024年全国大学生数学建模案例中的题目,截取了该建模题中的前两个问题。3rf喜好网-记录每日喜好的科技时尚娱乐生活

星火深度推理大模型X1发布,底层4.0Turbo升级后实力如何?

得到的回答是“内容暂不支持,可以换个题目试试。”3rf喜好网-记录每日喜好的科技时尚娱乐生活

大模型之家猜测可能是由于数学建模题目过长导致,于是重新选取了一道关于基金调动的数学案例来对X1进行提问。3rf喜好网-记录每日喜好的科技时尚娱乐生活

星火深度推理大模型X1发布,底层4.0Turbo升级后实力如何?

在用时139秒后,X1完成思考。在回答过程中,与前段时间的DeepSeekAI智能助手类似,采用了深度思考计时的形式,但星火的深度推理模型X1并未在页面中显示出思考过程,只有在形成答案的过程中,会闪动小标题来显示正在思考。这道题回答完整,并且在最后结果解析完成之后进行答案总结。3rf喜好网-记录每日喜好的科技时尚娱乐生活

对于此类难度系数较高的大学生数学案例题来看,星火深度推理模型X1的回答逻辑严密,能够根据题干进行预设,并且注释清晰。3rf喜好网-记录每日喜好的科技时尚娱乐生活

既然是深度思考的数学大模型,接下来,大模型之家也拿出了每个学习阶段的小学生常见问题“1+1为什么等于2?”,来测试一下星火深度推理模型X1面对学生的问题会给出怎样的答复。3rf喜好网-记录每日喜好的科技时尚娱乐生活

星火深度推理大模型X1发布,底层4.0Turbo升级后实力如何?3rf喜好网-记录每日喜好的科技时尚娱乐生活

星火深度推理大模型X1发布,底层4.0Turbo升级后实力如何?

本次回答用时72秒,X1根据自然数的定义、定义加法运算以及应用定义计算1+1,综合得出2是1的后继数,以此来得出1+1=2的公式成立。但是以小学阶段的孩子可能对提到的皮亚诺公理等性质的内容理解起来有难度。3rf喜好网-记录每日喜好的科技时尚娱乐生活

深度推理模型X1以智能体的形式出现,在实际的体验中,无论是页面设计还是回答来看,X1更像是一个经过训练形成的数学专用智能体,并没有出现直播演示中的右侧思考栏,与官方介绍中的具备深度思考过程和推理能力的大模型有所出入。3rf喜好网-记录每日喜好的科技时尚娱乐生活

023rf喜好网-记录每日喜好的科技时尚娱乐生活

 

长文本处理强行充数、图文识别已读乱回

此外,在本次升级中本次讯飞星火4.0 Turbo行业能力提升,在能源、金融、汽车、运营商等场景下,讯飞星火正在持续学习行业知识,目前已有300+智能体应用,成为更懂行业的大模型,其中对长文本、图文识别和减少幻觉等能力进行了提升。3rf喜好网-记录每日喜好的科技时尚娱乐生活

大模型之家先以生成长文本能力进行测试,输入prompt“以“2025年1月15日,讯飞星火大模型升级”为信源,写5000字关于讯飞星火大模型升级的文案,要求风格是活泼的”。3rf喜好网-记录每日喜好的科技时尚娱乐生活

星火深度推理大模型X1发布,底层4.0Turbo升级后实力如何?

最终星火大模型4.0Turbo给出的回答中,总共分为五个部分,从升级背景、技术突破、应用场景拓展赋能各行各业、用户体验升级以及未来展望着手,文案的完整性和连贯性表现不错。3rf喜好网-记录每日喜好的科技时尚娱乐生活

但在字数校对中发现回复的文案共计2676字,与提问的5000字相差甚远。当然,星火也没有强行凑字数,这是目前所有大模型输出文本长度受限的问题。3rf喜好网-记录每日喜好的科技时尚娱乐生活

接下来,以处理长文本能力进行测试。大模型之家将《2025人工智能行业趋势报告》文件导入,要求星火大模型进行整理“提取其中关于OpenAI案例的部分,分点罗列”。3rf喜好网-记录每日喜好的科技时尚娱乐生活

星火深度推理大模型X1发布,底层4.0Turbo升级后实力如何?

在星火的回答中,将《报告》中关于OpenAI的三个案例分三点罗列,在案例数量上是正确的,但回答的要点与《报告》实际提到的OpenAI重启人形机器人项目、 o1&o3系列模型以及Scaling Law逐渐逼近的“边际效应”这三部分不对应。3rf喜好网-记录每日喜好的科技时尚娱乐生活

提示词中是关于“OpenAI的案例”,但在星火实际的回答中却出现了“特斯拉入局人形机器人赛道”的案例来充数,在整理长文本的能力上可见一斑。3rf喜好网-记录每日喜好的科技时尚娱乐生活

接下来,大模型之家开始对图文能力提升,“看”懂复杂文档进行实测,复杂场景的图文包括手写文字识别的内容。利用之前商汤融合大模型的一个英文手写诗图文测试题目来对星火进行提问。3rf喜好网-记录每日喜好的科技时尚娱乐生活

星火深度推理大模型X1发布,底层4.0Turbo升级后实力如何?图左:讯飞星火大模型 右:商汤融合大模型

星火的反应速度很快,甚至出现“已读乱回”的迹象,实际给出的回答中,字数明显多于原图,但主打一个“答都答了”,完整性上确实无懈可击,从信件开头的Dear到结尾的落款名Larry都有,但内容上确实存在图文完全不一致的情况。3rf喜好网-记录每日喜好的科技时尚娱乐生活

如果说英文场景不是星火大模型擅长的语言,大模型之家又以中文场景下的手写文案进行图文识别测试。3rf喜好网-记录每日喜好的科技时尚娱乐生活

星火深度推理大模型X1发布,底层4.0Turbo升级后实力如何?

根据识别的内容来看,图中左上角文字和下半部分文字识别正确,但在中间的户外运动分类等内容均未识别。3rf喜好网-记录每日喜好的科技时尚娱乐生活

根据大模型之家的实测来看,星火深度推理模型X1的数学解题能力覆盖中小学生的日常解题足够了,进阶到数学建模层面明显吃力;而星火4.0 Turbo升级后的长文本能力和图文识别能力的表现一般,失误频频。3rf喜好网-记录每日喜好的科技时尚娱乐生活

不过值得肯定的是,星火深度推理模型X1作为首个基于全国产算力训练的具备深度思考和推理能力的大模型,用更少的算力达到效果,并率先实现了实际场景落地,这对于国产来说还是很值得鼓励的。3rf喜好网-记录每日喜好的科技时尚娱乐生活

033rf喜好网-记录每日喜好的科技时尚娱乐生活

 

大模型中标王者--科大讯飞前路漫漫

回顾2024年,科大讯飞讯飞星火大模型获得大模型行业中标金额和数量双第一的成绩。中标项目主要以大模型软件、AI平台、AI应用等项目为主。3rf喜好网-记录每日喜好的科技时尚娱乐生活

同时科大讯飞表示,中标收入不仅是为了获取最初的经济收益,更是为了获取进入特定场景的机会,从而有机会深入迭代并在该场景上建立起客户的持续投资回报循环。3rf喜好网-记录每日喜好的科技时尚娱乐生活

而大模型之家也注意到,尽管科大讯飞取得了中标王者的成绩,但同时其应收账款项一路狂奔,从2020年的54.68亿元一直涨到2024年前三季度的140亿元,但AI大模型研发投入巨大,这也促使科大讯飞不得不“节衣缩食”,开始了“用更少的算力”来达到AI疗效。3rf喜好网-记录每日喜好的科技时尚娱乐生活

由本次的升级发布会来看,科大讯飞也在大模型和自家硬件之间进行了强联合,从AI学习机到科大讯飞翻译机,每一步的大模型升级都是围绕客户需求来进行的。但在实际测试中,星火大模型的升级迭代也并没有给用户带来惊艳的效果,这点也影响到了投资者的信心,截至1月15日收盘,科大讯飞升级大模型之后股价下跌1.11%。3rf喜好网-记录每日喜好的科技时尚娱乐生活

星火深度推理大模型X1发布,底层4.0Turbo升级后实力如何?

 3rf喜好网-记录每日喜好的科技时尚娱乐生活

星火深度推理模型X1作为国内首个基于全国产算力训练的具备深度思考和推理能力的大模型,实现了用更少的算力达到效果,并率先实现了实际场景落地。大模型之家希望科大讯飞能够低调做好产品,而不是口号上一味对标超越GPT,基于国产算力的AI大模型或许目前还不能成为世界一流,但只要中国的科技在不断向前推进,大模型之家坚定的相信以科大讯飞为代表的中国企业终究会跻身世界一流水平。3rf喜好网-记录每日喜好的科技时尚娱乐生活

 3rf喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
拼多多「隐身」双十一

拼多多「隐身」双十一

纵然是在互联互通的大背景下,双十

11-19 65阅读
消息称抖音正推进“V”项目,包括直播游戏互动、AI 分身功能等

消息称抖音正推进“V”项目,包括

11 月

11-19 72阅读
SVM频闪指标低的旗舰!iQOO Neo10系列屏幕参数出炉

SVM频闪指标低的旗舰!iQOO Neo10

11月18日

11-19 70阅读
天玑9400性能之神!iQOO Neo10系列前瞻

天玑9400性能之神!iQOO Neo10系列

今天,iQOO

11-19 65阅读
大厂离职博主,卷向海外

大厂离职博主,卷向海外

离开

11-19 64阅读
太太太灵了吧,这是什么「好东西」

太太太灵了吧,这是什么「好

作者 / 西贝偏北运营 / 狮子座还记得

11-19 65阅读
NCT DREAM正辑四辑《DREAMSCAPE》登上韩国国内各大专辑周榜一位

NCT DREAM正辑四辑《DREAM

11月11日发行的NCT DREAM正辑

11-19 66阅读
中国电影海外推广研讨会在豆园(Doc.Park)举行

中国电影海外推广研讨会在

  近日,原国家广电总局电影局原巡

11-19 63阅读
时隔3年正式回归连更2条作品 李子柒:还有存货正在剪

时隔3年正式回归连更2条作

11月12日消息,时

11-19 58阅读
金角大王与银角大王可动人偶开启预定:超逼真还原童年记忆

金角大王与银角大王可动人

近日haoyutoys官

11-19 70阅读
Steam传播仇恨指控引人质疑:青蛙表情包占一半以上

Steam传播仇恨指控引人质

在海外的许多网友都喜欢用一个名为“P

11-19 68阅读
《燕云十六声》PC版不锁帧 1060可畅玩中画质

《燕云十六声》PC版不锁帧

《燕云十六声》官博发布新的文章,主要

11-19 63阅读
奥特曼格斗进化0怎么放大招?奥特曼格斗进化0攻略

奥特曼格斗进化0怎么放大

《奥特曼格斗进化0》游戏中可以操控各

11-19 105阅读
原子之心医院区域密码房解谜攻略

原子之心医院区域密码房解

原子之心的医院区域里面有一个密码房,需

11-19 72阅读
原神超越时间的虚影全流程解析|超越时间的虚影隐藏任务攻略

原神超越时间的虚影全流程

超越时间的虚影是原神须弥沙漠地区的隐

11-19 68阅读