一手实测「豆包」深度思考模式:能超越 DeepSeek 吗?

2个月前 科技 13观看
摘要图片来源:由无界AI生成字节跳动旗下 AI 助手豆包正在小范围测试深度思考模型,据豆包相关负责人对极客公园表示,当前测试的是自家深度思考模型的不同实验版本。另外有报道称,豆包正在测试的深度思考模型是基于豆包 1.5 基


yax喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

字节跳动旗下 AI 助手豆包正在小范围测试深度思考模型,据豆包相关负责人对极客公园表示,当前测试的是自家深度思考模型的不同实验版本。yax喜好网-记录每日喜好的科技时尚娱乐生活

另外有报道称,豆包正在测试的深度思考模型是基于豆包 1.5 基座模型研发。yax喜好网-记录每日喜好的科技时尚娱乐生活

其实此前在 1 月中旬,在豆包大模型团队发布豆包 1.5Pro 时,就已宣布了深度推理模型 Doubao-1.5-pro-AS1-Preview 的存在,并称「在完全不使用其他模型数据的条件下,通过 RL 算法的突破和工程优化,充分发挥 Test Time Scaling 的算力优势,完成了 RL Scaling,研发了 Doubao 深度思考模式。」yax喜好网-记录每日喜好的科技时尚娱乐生活

极客公园实测发现,与豆包对话时后者生成的答案确实有开始显示推理过程的思维链,不过并不稳定出现。目前在豆包对话页面也尚未出现「深度思考」功能的入口。yax喜好网-记录每日喜好的科技时尚娱乐生活

从 2 月 22 日开始,豆包就被腾讯旗下的 AI 应用「腾讯元宝」压了一个身位,位居中国区苹果应用商店免费 APP 下载排行榜第三位(第一名还是 deepseek),在腾讯、百度多个应用接入 deepseek 后,字节豆包会如何处之就成为大家关注的焦点,如今答案正在显现。yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活

01、豆包也上「深度思考」了?


yax喜好网-记录每日喜好的科技时尚娱乐生活

最早具备深度思考能力的模型是 OpenAI 于 2023 年 12 月推出的 o1 系统,但其采用闭源策略而且仅限付费用户使用(每月 200 美元)。而 DeepSeek 则通过开源策略、成本降低以及交互创新,成为首个将深度思考能力大规模普及的 AI 公司——DeepSeek 于 2024 年 11 月 20 日发布 R1-Lite-Preview,成为国内首个对标 o1 的推理模型,并在 2025 年 1 月 20 日开源了 R1 模型。yax喜好网-记录每日喜好的科技时尚娱乐生活

R1 模型的创新点在于:透明化思维链;展示完整的推理过程,包括自我质疑、假设验证等拟人化思考路径;低成本与开源;R1 模型的推理成本仅为 OpenAI o1 的 1/27,且代码完全开放。yax喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek 的深度思考模式是一种通过显性化 AI 模型的推理过程来增强用户理解的功能,思维链(Chain of Thought, CoT)是支撑这一模式的核心技术。yax喜好网-记录每日喜好的科技时尚娱乐生活

简单来说,深度思考模式可以让用户直观看到模型的思考过程,这中间涉及思维链的展示,也就是 COT(Chain of Thought)——思维链是模拟出来的,通过训练让模型输出中间步骤,比如自我质疑和反思,虽然只是文字序列,但看起来像人类的思考过程。yax喜好网-记录每日喜好的科技时尚娱乐生活

在深度思考模式下,用户不仅能看到 AI 的最终答案,还能观察到模型解决问题的完整逻辑链条,包括自我质疑、假设验证、错误修正等步骤。比如,在解决数学题时,模型会展示其从问题拆解、多方法验证到最终结论的全过程。yax喜好网-记录每日喜好的科技时尚娱乐生活

结合实时联网功能后,模型可抓取最新信息并进行逻辑整合。25 日,Anthropic 发布了 Claude 3.7 Sonnet 混合推理模型,阿里云 Qwen 推理模型「QwQ-Max 预览版」也亮相了,我让豆包评价了一下这两款推理模型:yax喜好网-记录每日喜好的科技时尚娱乐生活

可以看到豆包搜到 9 篇资料并进行了「深入思考」|图片来源:极客公园yax喜好网-记录每日喜好的科技时尚娱乐生活

豆包展示了思考过程|图片来源:极客公园yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活

思考完毕的豆包输出了对这两款模型的评价|图片来源:极客公园yax喜好网-记录每日喜好的科技时尚娱乐生活

思考过程的展示,让用户能够清晰地看到模型的推理步骤,而不仅仅是最终结果,这样一来,用户能够感受到模型的决策是有依据的,对模型输出的结果也会更有信任感。yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活

02、豆包 vs deepseek,各有千秋


yax喜好网-记录每日喜好的科技时尚娱乐生活

因为还在测试中,目前在豆包对话页面暂未显示「深度思考」功能的入口,输入消息时也没有像其他接入 deepseek 的产品一样有选择框可以选择是否开启「深度思考」功能,只是被灰度到的用户在问一些问题时会触发该功能。yax喜好网-记录每日喜好的科技时尚娱乐生活

我拿几个问题同时问了一下豆包和 deepseek,看下两者在「深度思考」上会有哪些不同表现。yax喜好网-记录每日喜好的科技时尚娱乐生活

经典的数学问题:「9.11 和 9.9 谁大」yax喜好网-记录每日喜好的科技时尚娱乐生活

先看下豆包的思考过程:yax喜好网-记录每日喜好的科技时尚娱乐生活

先说一下,在测试中,我发现豆包的「深度思考」模式出现得并不稳定,在第一次输入「9.11 和 9.9 谁大」后,它只是简单地回应了我一下:yax喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:极客公园yax喜好网-记录每日喜好的科技时尚娱乐生活

但在我又输入了一遍「9.11 和 9.9 谁大」想试试会不会触发「深度思考」模式时,还真出现了:yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活

豆包详细地考虑了为什么我会第二次问它这个问题……|图片来源:极客公园yax喜好网-记录每日喜好的科技时尚娱乐生活

可以看到,虽然豆包意识到刚刚已经回答过我,但它还是贴心地考虑了多种也许我没理解前面答案的可能性,然后再给出判断方法最后输出结果。yax喜好网-记录每日喜好的科技时尚娱乐生活

再看一下 deepseek 的思考过程:yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活

可以看出,虽然这是一个「看起来很简单」的问题,deepseek 的思考过程同样很详细,要比豆包的思考过程更全面。yax喜好网-记录每日喜好的科技时尚娱乐生活

在这个简单数学题上,豆包和 deepseek 都遵循了小数比较的基本规则,并采用多种方法验证;不同点在于豆包注重教学引导和考虑到用户可能的误解,而 DeepSeek 则更现自我质疑和反复验证,思考过程更复杂。yax喜好网-记录每日喜好的科技时尚娱乐生活

哲学问题:意识的本质是什么?AI 会获得自我意识吗?yax喜好网-记录每日喜好的科技时尚娱乐生活

先来看豆包的回答:yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活

再来看看 deepseek 的回答:yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活


yax喜好网-记录每日喜好的科技时尚娱乐生活

可以看出,DeepSeek 的回答分为科学理论、AI 意识路径、伦理框架和解决路径四个部分,引用了神经科学、量子理论等,还提到了法律案例和具体数据;而豆包的回答更偏向哲学理论分类,列举了物理主义、二元论等,并讨论了支持与反对 AI 权利的观点,不过没有深入技术细节。yax喜好网-记录每日喜好的科技时尚娱乐生活

两者都承认意识本质尚无共识,也都提到了哲学和科学理论、伦理问题,不同则在于深度和技术细节,DeepSeek 更技术导向,涉及神经形态计算、量子封印技术等,而豆包更侧重哲学流派和现有伦理指南。yax喜好网-记录每日喜好的科技时尚娱乐生活

通过本次实测,我们看到了豆包在深度思考模式上的初步表现,虽然目前处于测试阶段,且功能的稳定性和入口尚未完全开放,但其对推理过程的初步展示已为用户带来了更直观的理解路径。yax喜好网-记录每日喜好的科技时尚娱乐生活

字节跳动 大模型 豆包 腾讯元宝
展开全文
猜你感兴趣
24小时动态血压监测!华为WATCH D2预售:到手价2888元

24小时动态血压监测!华为WATCH D2

11月19日

11-19 68阅读
供应链称上游元器件要大降价:国产手机现涨价潮后会主动下调售价吗

供应链称上游元器件要大降价:国产

11月19日

11-19 73阅读
护眼的2K旗舰!Redmi K80是行业唯一支持全亮度DC的2K屏手机

护眼的2K旗舰!Redmi K80是行业唯

11月18日

11-19 78阅读
“知春路时代”的创业者,被回购条款绊了一跤

“知春路时代”的创业者,被回购条

这次

11-19 69阅读
年入上百亿,海尔旗下独角兽终止IPO

年入上百亿,海尔旗下独角兽终止IP

今年

11-19 75阅读
毛不易李雪琴:《毛雪汪》录了三年一百期,不白干不白干!|Talk独家探班

毛不易李雪琴:《毛雪汪》录

作者 / 朱   婷运营 / 狮子座“今

11-19 67阅读
泫雅&龙俊亨婚后首次公开近况:日本甜蜜旅行中!捧爱心蛋糕紧贴合影

泫雅&龙俊亨婚后首次

歌手泫雅和龙俊亨结婚一个月

11-19 63阅读
山东卫视《中华家庭诗词擂台赛》 共品大宋“战狼”辛弃疾的峥嵘岁月

山东卫视《中华家庭诗词擂

  “品诗词之美,传诗礼家风”,由山东

11-19 64阅读
天生戏剧人!小演员田芯语乌镇首秀,领衔戏剧节唯一入围儿童剧《乐园》

天生戏剧人!小演员田芯语乌

  深秋,一场淅淅沥沥的小雨为江南带

11-19 71阅读
中国第一网红李子柒:不希望青少年梦想当网红

中国第一网红李子柒:不希望

11月19日消息,近

11-19 73阅读
大宇资讯恐怖游戏《咒》今日Steam全球同步上市

大宇资讯恐怖游戏《咒》今

恐怖游戏大厂-大宇资讯宣布,改编自台湾

11-19 68阅读
非线性悬疑侦探新作《心灵警探》现已登陆PC、PS5和Switch

非线性悬疑侦探新作《心灵

2024年11月15日,法国·蒙彼利埃 – 发行

11-19 80阅读
《星刃》开发商否认《胜利女神》将改编动画的传言

《星刃》开发商否认《胜利

《星刃》对于开发商Shift Up而言是一

11-19 70阅读
《荒野大镖客:救赎》PC版显卡性能实测:缺乏诚意的移植!帧生成效果开倒车

《荒野大镖客:救赎》PC版显

11-19 67阅读
原神5个战斗性隐藏成就攻略

原神5个战斗性隐藏成就攻

5个战斗性成就是原神须弥地区的隐藏任

11-19 68阅读