奥特曼还在抱娃 GPT-4.5已经被网友开喷了

5个月前 科技 29观看
摘要 自打 DeepSeek 全球爆火以后, AI 圈里都跟按了快进键一样,都好顿加速。别的不说,光这一周就有马斯克的 Grok 3 ,Anthropic的 Claude 3.7 Sonnet ,阿里的通义 QwQ-Max-Preview ,腾讯的 Turbo S ,月之暗

自打 DeepSeek 全球爆火以后, AI 圈里都跟按了快进键一样,都好顿加速。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

别的不说,光这一周就有马斯克的 Grok 3 ,Anthropic的 Claude 3.7 Sonnet ,阿里的通义 QwQ-Max-Preview ,腾讯的 Turbo S ,月之暗面的 Kimi-1.6-IoI-High ,谷歌的 Gemini Code Assist 啥的一大堆东西,还有个 DeepSeek 开源周,简直是仙之人兮列如麻。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

而就在昨晚,回回被拿出来鞭尸,每次都自称在憋大的的 OpenAI 终于憋出来了,掏出了 GPT 系列的船新版本, GPT-4.5 。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

 按奥特曼的说法,这回这个 GPT-4.5 是一种不同类型的智能,其中有着他从未感受过的奇妙之处,这将是第一个让你感觉在和一个有思想的人说话的模型。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

不过,自打两个月前哥们连着十几天,次次半夜两点追他们无聊发布会,说实话奥特曼有点伤了哥们的心了。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

 所以咱其实对这个 GPT-4.5 也没报啥期望,甚至发布会上奥特曼人都没来,说是回家带孩子去了,对,就他跟他老公俩男的生的那个娃。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

反正整体看下来,我只能说 GPT-4.5 这波算是 “ 唐唐 ” 亮相了。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

这倒不是哥们尬黑,其他网友们对这玩意多数也是这个看法,外网上甚至有个 GPT-4.5 是不是垃圾的讨论,因为就连红脖子们也不看好 GPT ,都投票给了马斯克的 xAI 。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

所以这玩意到底怎么个拉法呢,不卖关子,咱直接说结论,那就是 GPT-4.5 性能不行,而且价高。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

同样是昨晚发布,但他跟 su7u 属于是完全反着来。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

先说性能吧,在一个 OpenAI 官方给出的基准测试里, GPT-4.5 在科学,数学,编码能力上都比不上自家去年发的 o3-mini ,基准测试也只比 4o 好 5% 。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

也就是说, GPT-4.5 在 AIME 和 GPQA 等困难的学术基准测试上,相比自家 o3-mini 都是不太够的,更别说跟 DeepSeek-R1 和 Claude 3.7 Sonnet 这些放一个怪物房了。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

抛开官网的数据,拿网友们的实测来看, GPT-4.5 跟同在这周发布的 Claude 3.7 也相差不小。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

 比如在思维理解和导图生成上, Claude 几乎可以搬到 ppt 上做插图了,但 GPT-4.5 画的图就跟我小学微机课上的作业一样。。。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

更离谱的是,这玩意的运行速度还很慢。。。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

但这还不是离谱的,真正让它挨喷的,其实是它的价格。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

按他们官方的数据, GPT-4.5 每百万 Tokens 价格是 75 美元,跟 4o 相比整整涨了 30 倍,更别说跟 DeepSeek 比了,那直接能达到 280 倍。。。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

 要是再算上 DeepSeek 的折扣,甚至能相差 1000 倍以上!6Wn喜好网-记录每日喜好的科技时尚娱乐生活

但搞笑的是, OpenAI 的官网文章还说 GPT-4.5 “ 无法完全替代 GPT-4o ” 。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

不过人家 OpenAI 官方倒是不太在意这个,他们觉得 GPT-4.5 真正厉害之处,在于它的语言能力。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

 他们在官网的博客里说, GPT-4.5 可以在对话中分析人类情感需求,提供情绪价值这方面是现在牛的。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

 “ 它将对世界的深刻理解与更佳的协作相结合,可以形成一种模型,该模型可以在更适合人类协作的热情而直观的对话中自然地整合想法。GPT-4.5 能够更好地理解人类的意思,并以更细致入微的 “ 情商 ” 来解读微妙的暗示或隐含的期望。 ” 6Wn喜好网-记录每日喜好的科技时尚娱乐生活

就比如说你没考好,跟他一说他就会先安慰你,但 4o 就很直男的直接给你一堆方案。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

可是咋说呢,这看起来确实有人情味了些,但调教出一个有情商的 AI 似乎没法证明它真的就比别家强。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

 拿字节的豆包来说,你给它发这句它也回答的挺人性的,甚至还能打电话。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

不止咱们,外网网友也对 OpenAI 纷纷发推,那它跟 DeepSeek r1 和 Grok 做比较,公开表示阴阳。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

说实话这也能理解,劳资花了市场上贵的钱,结果它是要算法有情商,要推理有情商,要应用有情商。。。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

前 OpenAI 员工,国外知名 AI 分析师Andrej Karpathy 发了个文章说, GPT-4.5 相比前代的训练成本是提高了整整十倍的,但智商并不如推理模型,而是把重点放在了 AI 的情商上。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

虽然 Andrej 对 GPT-4.5 的情商挺满意的,说这是 GPT-3.5 到 4.0 的进步;但他也指出, GPT-4.5 并不是推理模型,而且可能是 OpenAI 后一代非推理模型了。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

 这么一来,等到 OpenAI 在 4.5 的基础上再搞下一代推理模型,估计才会有更好的表现。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

不过从这一点上说,以后可能大部分 AI 的方向,都将会彻底转向推理。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

一方面, GPT-4.5 的这次亮相,其实某种意义上可以说,传统只靠大力出奇迹,狂堆算力的 Scaling Law (规模法则 )已开始减速了。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

而另一方面,开源模型阵营这边,在这个方向上已经上道了。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

不说别的, DeepSeek 开源周这几天,每天都把自家 V3 和 R1 训练推理过程中的核心出装,都免费晒出来给大家用。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

比方说第一天的 FlashMLA 架构,相当于把自己调教英伟达 GPU 的招给教了,手把手教你榨干 H800 的算力资源;6Wn喜好网-记录每日喜好的科技时尚娱乐生活

 后面几天还陆续开放了 DeepEP 、 DeepGEMM 、 DualPipe 、 EPLB 这一堆数据库和算法;后还给了个用来压榨固态硬盘性能的 3FS 和 Smallpond 数据处理框架。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

奥特曼还在抱娃 GPT-4.5已经被网友开喷了6Wn喜好网-记录每日喜好的科技时尚娱乐生活

而在类似 GitHub 的社区, AI 领域的开发者们这几天也是高兴坏了, DeepSeek 这些开源数据几乎每天都在 GitHub 热榜上坐庄,这波可以说是新的 “ 源神 ” 了。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

 一边 GPT-4.5 表现平平,一边 DeepSeek 搞得是人人有枪,这样一来,以后的 AI 训练估计很难再看到传统的算力竞赛了,更低本高效的训练估计会变成王道。6Wn喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
疑遭猎杀 泰海域发现无头“美人鱼”:只因毫无科学依据的传说

疑遭猎杀 泰海域发现无头“美人

11月19日

11-19 127阅读
有你吗 比亚迪抽车中奖名单公布:共90台仰望U8、腾势Z9 GT、豹8豪车

有你吗 比亚迪抽车中奖名单公布:

11月19日

11-19 130阅读
护眼的2K旗舰!Redmi K80是行业唯一支持全亮度DC的2K屏手机

护眼的2K旗舰!Redmi K80是行业唯

11月18日

11-19 121阅读
‌华为、OPPO、vivo、小米联手打造统一链接平台:简化App下载流程‌

‌华为、OPPO、vivo、小米联手打

11-19 131阅读
郎酒大战夜郎古,一个字2亿元

郎酒大战夜郎古,一个字2亿元

不是

11-19 109阅读
《小巷人家》:街坊邻里的当代理想化图示

《小巷人家》:街坊邻里的当

作者 / 耳东陈运营 / 狮子座先说一桩

11-19 123阅读
释彦能:银幕硬汉,反派巅峰——正邪交锋,票房破亿传奇!

释彦能:银幕硬汉,反派巅峰—

  在当今动作电影的舞台上,释彦能以

11-19 121阅读
“咪粉嗨购节”上线  咪咕音乐携周杰伦加码“双十一”福利

“咪粉嗨购节”上线 咪咕

  双11来了,为了凑满减捆绑废物单品

11-19 100阅读
零容忍!税务部门公布3起网络主播偷税被处罚案件

零容忍!税务部门公布3起网

11月15日消息,近

11-19 109阅读
肖战演郭靖!新《射雕》能复兴徐克的武侠梦吗 网友:肩负文化出海重任

肖战演郭靖!新《射雕》能复

11月18日消息,由

11-19 105阅读
《如龙8外传 夏威夷海盗》演员采访视频:谷田步篇

《如龙8外传 夏威夷海盗》

世嘉公开了《人中之龙8外传Pirates in

11-19 126阅读
《啪嗒砰》精神续作《Ratatan》新预告片分享

《啪嗒砰》精神续作《Rata

Game Source Entertainment 宣布与开

11-19 132阅读
索尼正在开发自动检测游戏BUG的AI系统:简化测试流程

索尼正在开发自动检测游戏

根据 Tech4Gamer 报道,根据索尼目前发

11-19 112阅读
咸鱼之王爬塔最强阵容2024,咸鱼之王最强阵容推荐

咸鱼之王爬塔最强阵容2024

咸鱼之王爬塔最强阵容相信在玩咸鱼之王

11-19 136阅读
原子之心全部圆盘锁开锁方法详细介绍

原子之心全部圆盘锁开锁方

圆盘锁是原子之心游戏里面的一种特殊加

11-19 107阅读