苹果炮轰AI推理模型:全是假思考!再多算力也没用

1周前 游戏 2观看
摘要 苹果近日发表了一篇研究论文,称推理模型全都没真正思考,无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的“模式匹配”,所谓思考只是一

苹果近日发表了一篇研究论文,称推理模型全都没真正思考,无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的“模式匹配”,所谓思考只是一种假象。

hrB喜好网-记录每日喜好的科技时尚娱乐生活

hrB喜好网-记录每日喜好的科技时尚娱乐生活

为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、跳棋交换、过河问题、积木世界,并且这4类谜题的难度可以精确控制。hrB喜好网-记录每日喜好的科技时尚娱乐生活

随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算,它们却在最需要深入思考时选择了放弃。并且,当问题复杂度继续增加并超过某个临界点时,无论是推理模型还是标准模型都会经历完全的性能崩溃,准确率直线下降至零。hrB喜好网-记录每日喜好的科技时尚娱乐生活

hrB喜好网-记录每日喜好的科技时尚娱乐生活

hrB喜好网-记录每日喜好的科技时尚娱乐生活

对此,有网友讽刺到:“苹果拥有最多的资金,2年了也没有拿出像样的成果,现在自己落后了,却来否定别人的成果。”hrB喜好网-记录每日喜好的科技时尚娱乐生活

据悉,Apple Intelligence在2024年WWDC正式亮相,在这一年里,苹果宣传中的许多功能都经历延期、不够完善甚至被下架。不过也有人指出,这篇论文没有看上去那么消极,而是呼吁设立更好的推理机制和评估办法。hrB喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
2024年真实有效能赚钱的app有哪些?盘点赚钱软件app排行榜前十名!

2024年真实有效能赚钱的ap

随着移动互联网的快速发展,赚钱的方式也

11-19 321阅读
20年后焕发新生 《半条命2》在线玩家人数冲上巅峰

20年后焕发新生 《半条命2

根据SteamDB的数据显示,围绕《半条命2

11-19 89阅读
和平精英国际服怎么选择国家?和平精英国际服改国籍方法

和平精英国际服怎么选择国

《和平精英国际服》是蓝洞和腾讯联合出

11-19 155阅读
CE修改器怎么用?使用CE修改器进行游戏修改的详细操作方法分享

CE修改器怎么用?使用CE修

CE修改器怎么用?对于很多游戏玩家来说CE

11-19 87阅读
功耗低+性能强 双十一AMD锐龙9000处理器省钱游戏套装推荐

功耗低+性能强 双十一AMD

11-19 86阅读
高考英语27分!退伍兵成壮凭借“一米习题”,上岸北京化工大学

高考英语27分!退伍兵成壮凭

“当那份来自北

06-12 17阅读
广东新设3所公办职业本科,“双高”引领职教提速

广东新设3所公办职业本科,

日前,广东三所高

06-13 14阅读
收藏!华南理工大学2025年本科招生最全联系方式

收藏!华南理工大学2025年本

1. 机械与汽车

06-13 15阅读
华南农大2025全国招生9200人,新增2个专业,开设40个特色创新班

华南农大2025全国招生9200

6月17日,华南农

06-18 8阅读
杜安国任广东技术师范大学党委副书记

杜安国任广东技术师范大学

6月18日,广东技

06-19 5阅读
实探广州车展:国产车越卖越贵,混动与纯电展开决战

实探广州车展:国产车越卖越

11-19 87阅读
改装的1990年梅赛德斯-奔驰560SEC:经典与现代的完美融合

改装的1990年梅赛德斯-奔

在restomods的世界里,老爷车正通过

11-19 86阅读
怎么验证车主身份真实性?怎么核查一辆车的车主是谁?

怎么验证车主身份真实性?怎

在二手车交易过程中,验证车主身份的

11-19 86阅读
广州车展:长安凯程品牌战略全面焕新

广州车展:长安凯程品牌战略

广州车展中,长安凯程发布全新品牌战

11-19 82阅读
30年敢想敢干敢坚持 比亚迪迎来第1000万辆新能源汽车下线

30年敢想敢干敢坚持 比亚

11月18日,比亚迪成立30周年暨第1000

11-19 86阅读