实测文心X1:便宜大碗还能自主调用工具,引发硅谷反思?

1个月前 科技 14观看
摘要图片来源:由无界AI生成又一家中国模型引发了硅谷大模型界的反思!这次,是百度文心X1。知名风投机构Benchmark合伙人Bill Gurley,在社交媒体上的评论引发热议:“美国人工智能公司应将100%的时间用于开发和创新,而不是在华盛顿


Pvo喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

又一家中国模型引发了硅谷大模型界的反思!这次,是百度文心X1。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

知名风投机构Benchmark合伙人Bill Gurley,在社交媒体上的评论引发热议:“美国人工智能公司应将100%的时间用于开发和创新,而不是在华盛顿特区游说寻求保护以躲避竞争。”Pvo喜好网-记录每日喜好的科技时尚娱乐生活

另一边,海外用户纷纷在平台上求助如何获取百度账号,科技KOL Alvin Foo在使用数小时后评价:“百度对文心进行了重大更新...其性能令人印象深刻。在多个基准测试中均优于ChatGPT 4.5,而价格仅为其1%。”科技作家Robert Scoble则直言:“我们有一场AI价格战!”Pvo喜好网-记录每日喜好的科技时尚娱乐生活

这一切,都源于3月16日百度同时发布了文心大模型4.5和文心大模型X1,目前,两款旗舰产品已提前在文心一言官网免费向用户开放。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

作为百度新一代基座大模型,文心大模型4.5的多项基准测试成绩优于GPT4.5、DeepSeek-V3等,并在平均分上以79.6分高于GPT4.5的79.14。而文心X1作为百度首个深度思考模型,主打的就是极致性价比。以输入0.002元/千tokens、输出0.008元/千tokens的价格,仅为DeepSeek-R1价格的一半,但性能却不相上下。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

更关键的是,文心X1实现了从逻辑推理、热点分析到多工具协同调用的突破,成为首个自主运用工具的深度思考模型。它能调用搜索、AI绘图、代码执行等11种工具,模型可自主规划行动路径,生成可直接落地的方案。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

假设一下,当深度思考模型可以调用足够多的工具来实现用户发出的指令,比如直接调用编程工具进行编程,或者调用word文档存档知识库,形成一系列工作流,这不就是原生Agent么?Pvo喜好网-记录每日喜好的科技时尚娱乐生活

我们带着这个疑问,全面测试了X1和文心4.5。Pvo喜好网-记录每日喜好的科技时尚娱乐生活


Pvo喜好网-记录每日喜好的科技时尚娱乐生活

1、能调用工具的X1,堪比Agent?


Pvo喜好网-记录每日喜好的科技时尚娱乐生活

在评测过程中,我们先是测试了X1的基础编程能力,让它帮忙设计了一个贪吃蛇小游戏。通过思考,X1很快给出了设计思路和代码。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

代码结构清晰,注释详尽,不仅包含了游戏的核心逻辑,还考虑到碰撞检测、分数计算和游戏状态管理等细节。不过X1体现了完全的“程序员直男风格”,完全不懂美化一下小蛇。(笑死)Pvo喜好网-记录每日喜好的科技时尚娱乐生活

随后,我们又测试了X1的逻辑推理能力,向它提出了一个经典的推理谜题,这道题在我们题库里,几乎问过每一个推理模型,包括DeepSeek R1、Kimi1.5、OpenAI o1,但无一例外都选择了「abba」的答案,但真实的情况是前三题正确,最后一题的杀人动机为c,一个被迫害妄想症患者的自我保护。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

看来大模型懂逻辑,但还是很难懂人性。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

在这次X1的功能中,与以往推理模型最大的不同在于他可以思考后调用工具,完成用户更落地的需求,结合多模态的能力,我们尝试了几个很实用的场景。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

比如我们找到了一张房间的图片,需要将图片中的房间进行软装改造,并生成效果图。这中间涉及到图片理解——装修意见——AI生图,调用了三个工具完成最终的效果图展示。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

效果图出来的时候,惊呆了!家装设计师岌岌可危啊!不仅能自定义风格,对哪些家具摆放不满意还可以进一步提需求调整,X1也能处理更加复杂的需求,比如房间摆设风水等等,无限出图,刷到满意为止!Pvo喜好网-记录每日喜好的科技时尚娱乐生活

经过实测,X1即便在复杂任务下,反应速度也非常快,没有卡顿,同时X1能主动识别任务需求,精准分析问题性质和复杂度,无需用户明确指导便能理解真实意图。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

最突出的特点是其自主工具选择能力,模型能基于任务特点智能选择最优工具组合,而非简单套用固定流程。在实际使用中,X1能在单次交互中灵活调用搜索、绘图、代码执行等多种工具协同工作,打破了传统模型的工具使用边界。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

总的来说,推理分析能达到R1的水平,同时不卡顿又能调用其他工具,真香了!Pvo喜好网-记录每日喜好的科技时尚娱乐生活


Pvo喜好网-记录每日喜好的科技时尚娱乐生活

2、怎样高性能,又能低成本?


Pvo喜好网-记录每日喜好的科技时尚娱乐生活

那么,X1是如何做到在保证模型性能的前提下,还能把价格打下来?Pvo喜好网-记录每日喜好的科技时尚娱乐生活

这一突破与百度多年的技术积累息息相关。通过飞桨深度学习平台和文心大模型的联合优化,文心X1实现了全链路极致调优,大幅降低了推理成本。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

在模型压缩层面,文心X1应用了尖端技术进行深度优化。通过分块Hadamard量化技术,精确控制模型参数精度与规模的平衡;针对长序列场景,团队特别优化了注意力机制的量化方案,在保持推理准确性的同时显著减少了计算资源需求。这些压缩技术使模型体积减少的同时,维持了高水平性能表现。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

推理引擎是另一个关键突破点。百度团队实现了低精度高性能算子优化,充分利用硬件特性;创新开发的动态自适应解码技术,同时基于神经网络编译器的深度定制化优化,实现了推理加速。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

最后是通过框架和芯片协同优化、分离式部署架构、高效资源调度实现了系统级优化。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

当然,除了百度在AI时代的技术积累以外,也有工程化的技术创新。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

据硅星人了解到,X1采用了递进式强化学习训练方法,不同于传统的强化学习通过“试错+奖励”机制训练模型,“递进式”则强调分阶段、渐进式的训练策略,来提升模型的训练效率。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

这种方法类似人类的学习路径——“先学走路,再学跑步”,目的是在创作、搜索、工具调用、推理等更复杂的任务场提升模型的综合应用能力。实际测试中,当要求X1分析一张包含图表的财报图片,并生成投资建议时,模型能自主决策先使用图像理解工具,再调用搜索获取相关行业数据,最后通过代码解释器生成数据可视化分析,整个过程如同专业分析师的工作流程。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

其次,X1突破性地将思维链(Chain of Thought)和行动链(Chain of Action)结合进行端到端训练。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

简单地理解为,模型不是割裂地学习思考与行动,而是将两者有机融合,形成完整的决策-执行闭环。通过这种方式,X1能根据每次行动的结果反馈,动态调整思考和行动策略。例如,在复杂的市场分析任务中,X1先通过思维链分析需要哪些数据,然后通过行动链调用搜索工具获取最新市场数据,发现数据不足后,又主动调整策略使用更专业的数据分析工具,最终生成全面的分析报告,这种灵活性在传统模型中难以实现。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

第三,X1创新性地解决了单一奖励指标的局限性,构建了多元统一的奖励系统。通过融合多种类型的奖励机制,形成综合奖励信号,全方位指导模型优化方向。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

这一系统的最大优势在于避免模型“偏科”,如过度追求准确性导致内容枯燥,或过度追求创意性而牺牲准确性。X1的输出更接近人类综合判断,能在不同场景下自适应调整表现风格。当然,这也带来了挑战:需要动态调整权重(如创作场景侧重创意性,代码生成场景侧重逻辑性),依赖海量场景数据训练。Pvo喜好网-记录每日喜好的科技时尚娱乐生活


Pvo喜好网-记录每日喜好的科技时尚娱乐生活

3、模型发一赠一,文心4.5也来了


Pvo喜好网-记录每日喜好的科技时尚娱乐生活

值得一提的是,除了文心X1的强大表现,百度也发布了此前预告过的基础大模型:文心大模型4.5。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

在实测中,文心4.5展现出卓越的多模态理解能力和极低的幻觉率。例如,我们向模型发送了一段抖音视频,关于电子产品介绍,文心4.5不仅能准确识别视频中的专业术语和关键数据,还能对该产品进行购买推荐。当面对含有多种信息源(图片、表格、文本)的混合输入时,模型能正确识别并区分不同来源的信息,避免了常见的信息混淆和虚构,这得益于其强大的去幻觉能力。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

通过iRAG技术提升百度系列模型的去幻觉能力和准确性,以及FlashMask动态注意力掩码技术、多模态异构专家扩展技术、时空维度表征压缩技术、基于知识点的大规模数据构建技术和基于自反馈的Post-training技术。这些技术不仅保证了模型的精准理解和稳定输出,更为模型后续的行业应用提供了坚实基础。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

可以让大模型从娱乐化的环境晋升到商业环境中,比如帮助家装设计师进行风格设计、分析视频脚本进行模仿、电商产品图生成等等,都变成了通用大模型的能力。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

通过这些深度技术创新,百度不仅打造出了高性能、低成本的文心X1,更重要的是探索出了一条独特的大模型发展路径,在追求技术极致的同时兼顾实用性和经济性。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

这种平衡发展的理念,既满足了企业对AI性能的高要求,又解决了应用成本问题,使AI真正能够为各行各业创造实际的价值。Pvo喜好网-记录每日喜好的科技时尚娱乐生活

百度 文心一言 大模型
展开全文
猜你感兴趣
轻薄手机用上潜望!曝vivo S20系列首次搭载潜望长焦镜头

轻薄手机用上潜望!曝vivo S20系列

11月1

11-19 66阅读
摸着Meta过河,百度再战AI眼镜

摸着Meta过河,百度再战AI眼镜

“Goo

11-19 65阅读
可栗口语完成数百万元天使轮融资

可栗口语完成数百万元天使轮融资

近日,A

11-19 61阅读
“一听别人说‘清华系’,我就感觉压力山大”

“一听别人说‘清华系’,我就感觉

自从

11-19 63阅读
大模型的效率腾飞,彩云科技做对了什么?

大模型的效率腾飞,彩云科技做对了

对于绝大多数AI创业者来说,AGI的

11-19 64阅读
林青霞谢娜同框, 竟是为了张杰?

林青霞谢娜同框, 竟是为了

张杰的首部舞台剧《曾经如是》正

11-19 65阅读
《权利的游戏》二丫结局是什么?她杀死了夜王?

《权利的游戏》二丫结局是

《权利的游戏》二丫结局是什在美

11-19 63阅读
2024东方卫视跨年首发阵容,胡歌唐嫣代表《繁花》剧组亮相

2024东方卫视跨年首发阵容

12月25日,2024东方卫视跨年首发阵

11-19 64阅读
张云龙秀恩爱庞博秀学历,《我的主场》主打一个凡尔赛

张云龙秀恩爱庞博秀学历,《

  年末最热血的一档综艺终于在爱奇

11-19 65阅读
赵薇再陷风波被强制执行8488元 公司涉400余起证券纠纷案

赵薇再陷风波被强制执行84

企查查APP显示,近日,浙江祥源文旅股份

11-19 66阅读
《ENDER MAGNOLIA: Bloom in the Mist》将于2025年1月23日上市

《ENDER MAGNOLIA: Bloom

云豹娱乐股份有限公司(董事长兼社长:陈云

11-19 69阅读
《勇者斗恶龙3重制版》发售再度引发社会现象 DQ休假燃起

《勇者斗恶龙3重制版》发

日本国民RPG《勇者斗恶龙》系列呼声最

11-19 69阅读
原子之心全部圆盘锁开锁方法详细介绍

原子之心全部圆盘锁开锁方

圆盘锁是原子之心游戏里面的一种特殊加

11-19 65阅读
饥荒超全影怪封印方法一览

饥荒超全影怪封印方法一览

在饥荒游戏的设定里面,玩家san值掉到0之

11-19 68阅读
饥荒饥饿腰带制作方法及制作材料分享

饥荒饥饿腰带制作方法及制

饥饿腰带是饥荒游戏里面的一件魔法物品

11-19 69阅读