实测文心X1：便宜大碗还能自主调用工具，引发硅谷反思？-喜好网-记录每日喜好的科技时尚娱乐生活

实测文心X1：便宜大碗还能自主调用工具，引发硅谷反思？

5个月前科技 30观看

摘要图片来源：由无界AI生成又一家中国模型引发了硅谷大模型界的反思！这次，是百度文心X1。知名风投机构Benchmark合伙人Bill Gurley，在社交媒体上的评论引发热议：“美国人工智能公司应将100%的时间用于开发和创新，而不是在华盛顿

图片来源：由无界AI生成

又一家中国模型引发了硅谷大模型界的反思！这次，是百度文心X1。

知名风投机构Benchmark合伙人Bill Gurley，在社交媒体上的评论引发热议：“美国人工智能公司应将100%的时间用于开发和创新，而不是在华盛顿特区游说寻求保护以躲避竞争。”

另一边，海外用户纷纷在平台上求助如何获取百度账号，科技KOL Alvin Foo在使用数小时后评价：“百度对文心进行了重大更新...其性能令人印象深刻。在多个基准测试中均优于ChatGPT 4.5，而价格仅为其1%。”科技作家Robert Scoble则直言：“我们有一场AI价格战！”

这一切，都源于3月16日百度同时发布了文心大模型4.5和文心大模型X1，目前，两款旗舰产品已提前在文心一言官网免费向用户开放。

作为百度新一代基座大模型，文心大模型4.5的多项基准测试成绩优于GPT4.5、DeepSeek-V3等，并在平均分上以79.6分高于GPT4.5的79.14。而文心X1作为百度首个深度思考模型，主打的就是极致性价比。以输入0.002元/千tokens、输出0.008元/千tokens的价格，仅为DeepSeek-R1价格的一半，但性能却不相上下。

更关键的是，文心X1实现了从逻辑推理、热点分析到多工具协同调用的突破，成为首个自主运用工具的深度思考模型。它能调用搜索、AI绘图、代码执行等11种工具，模型可自主规划行动路径，生成可直接落地的方案。

假设一下，当深度思考模型可以调用足够多的工具来实现用户发出的指令，比如直接调用编程工具进行编程，或者调用word文档存档知识库，形成一系列工作流，这不就是原生Agent么？

我们带着这个疑问，全面测试了X1和文心4.5。

1、能调用工具的X1，堪比Agent？

在评测过程中，我们先是测试了X1的基础编程能力，让它帮忙设计了一个贪吃蛇小游戏。通过思考，X1很快给出了设计思路和代码。

代码结构清晰，注释详尽，不仅包含了游戏的核心逻辑，还考虑到碰撞检测、分数计算和游戏状态管理等细节。不过X1体现了完全的“程序员直男风格”，完全不懂美化一下小蛇。（笑死）

随后，我们又测试了X1的逻辑推理能力，向它提出了一个经典的推理谜题，这道题在我们题库里，几乎问过每一个推理模型，包括DeepSeek R1、Kimi1.5、OpenAI o1，但无一例外都选择了「abba」的答案，但真实的情况是前三题正确，最后一题的杀人动机为c，一个被迫害妄想症患者的自我保护。

看来大模型懂逻辑，但还是很难懂人性。

在这次X1的功能中，与以往推理模型最大的不同在于他可以思考后调用工具，完成用户更落地的需求，结合多模态的能力，我们尝试了几个很实用的场景。

比如我们找到了一张房间的图片，需要将图片中的房间进行软装改造，并生成效果图。这中间涉及到图片理解——装修意见——AI生图，调用了三个工具完成最终的效果图展示。

效果图出来的时候，惊呆了！家装设计师岌岌可危啊！不仅能自定义风格，对哪些家具摆放不满意还可以进一步提需求调整，X1也能处理更加复杂的需求，比如房间摆设风水等等，无限出图，刷到满意为止！

经过实测，X1即便在复杂任务下，反应速度也非常快，没有卡顿，同时X1能主动识别任务需求，精准分析问题性质和复杂度，无需用户明确指导便能理解真实意图。

最突出的特点是其自主工具选择能力，模型能基于任务特点智能选择最优工具组合，而非简单套用固定流程。在实际使用中，X1能在单次交互中灵活调用搜索、绘图、代码执行等多种工具协同工作，打破了传统模型的工具使用边界。

总的来说，推理分析能达到R1的水平，同时不卡顿又能调用其他工具，真香了！

2、怎样高性能，又能低成本？

那么，X1是如何做到在保证模型性能的前提下，还能把价格打下来？

这一突破与百度多年的技术积累息息相关。通过飞桨深度学习平台和文心大模型的联合优化，文心X1实现了全链路极致调优，大幅降低了推理成本。

在模型压缩层面，文心X1应用了尖端技术进行深度优化。通过分块Hadamard量化技术，精确控制模型参数精度与规模的平衡；针对长序列场景，团队特别优化了注意力机制的量化方案，在保持推理准确性的同时显著减少了计算资源需求。这些压缩技术使模型体积减少的同时，维持了高水平性能表现。

推理引擎是另一个关键突破点。百度团队实现了低精度高性能算子优化，充分利用硬件特性；创新开发的动态自适应解码技术，同时基于神经网络编译器的深度定制化优化，实现了推理加速。

最后是通过框架和芯片协同优化、分离式部署架构、高效资源调度实现了系统级优化。

当然，除了百度在AI时代的技术积累以外，也有工程化的技术创新。

据硅星人了解到，X1采用了递进式强化学习训练方法，不同于传统的强化学习通过“试错+奖励”机制训练模型，“递进式”则强调分阶段、渐进式的训练策略，来提升模型的训练效率。

这种方法类似人类的学习路径——“先学走路，再学跑步”，目的是在创作、搜索、工具调用、推理等更复杂的任务场提升模型的综合应用能力。实际测试中，当要求X1分析一张包含图表的财报图片，并生成投资建议时，模型能自主决策先使用图像理解工具，再调用搜索获取相关行业数据，最后通过代码解释器生成数据可视化分析，整个过程如同专业分析师的工作流程。

其次，X1突破性地将思维链(Chain of Thought)和行动链(Chain of Action)结合进行端到端训练。

简单地理解为，模型不是割裂地学习思考与行动，而是将两者有机融合，形成完整的决策-执行闭环。通过这种方式，X1能根据每次行动的结果反馈，动态调整思考和行动策略。例如，在复杂的市场分析任务中，X1先通过思维链分析需要哪些数据，然后通过行动链调用搜索工具获取最新市场数据，发现数据不足后，又主动调整策略使用更专业的数据分析工具，最终生成全面的分析报告，这种灵活性在传统模型中难以实现。

第三，X1创新性地解决了单一奖励指标的局限性，构建了多元统一的奖励系统。通过融合多种类型的奖励机制，形成综合奖励信号，全方位指导模型优化方向。

这一系统的最大优势在于避免模型“偏科”，如过度追求准确性导致内容枯燥，或过度追求创意性而牺牲准确性。X1的输出更接近人类综合判断，能在不同场景下自适应调整表现风格。当然，这也带来了挑战：需要动态调整权重（如创作场景侧重创意性，代码生成场景侧重逻辑性），依赖海量场景数据训练。

3、模型发一赠一，文心4.5也来了

值得一提的是，除了文心X1的强大表现，百度也发布了此前预告过的基础大模型：文心大模型4.5。

在实测中，文心4.5展现出卓越的多模态理解能力和极低的幻觉率。例如，我们向模型发送了一段抖音视频，关于电子产品介绍，文心4.5不仅能准确识别视频中的专业术语和关键数据，还能对该产品进行购买推荐。当面对含有多种信息源（图片、表格、文本）的混合输入时，模型能正确识别并区分不同来源的信息，避免了常见的信息混淆和虚构，这得益于其强大的去幻觉能力。

通过iRAG技术提升百度系列模型的去幻觉能力和准确性，以及FlashMask动态注意力掩码技术、多模态异构专家扩展技术、时空维度表征压缩技术、基于知识点的大规模数据构建技术和基于自反馈的Post-training技术。这些技术不仅保证了模型的精准理解和稳定输出，更为模型后续的行业应用提供了坚实基础。

可以让大模型从娱乐化的环境晋升到商业环境中，比如帮助家装设计师进行风格设计、分析视频脚本进行模仿、电商产品图生成等等，都变成了通用大模型的能力。

通过这些深度技术创新，百度不仅打造出了高性能、低成本的文心X1，更重要的是探索出了一条独特的大模型发展路径，在追求技术极致的同时兼顾实用性和经济性。

这种平衡发展的理念，既满足了企业对AI性能的高要求，又解决了应用成本问题，使AI真正能够为各行各业创造实际的价值。

百度文心一言大模型

展开全文

猜你感兴趣