Sam Altman:用户要求,永远别更新GPT-4.5

2个月前 科技 17观看
摘要图片来源:由无界AI生成今天凌晨,OpenAI联合创始人兼首席执行官Sam Altman发文,评价了上周刚发布的最新、最贵的模型GPT-4.5.GPT-4.5是首次出现用户如此热情地给我们发邮件,请求我们承诺永远不要停止提供某一特定模型,甚至


laQ喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

今天凌晨,OpenAI联合创始人兼首席执行官Sam Altman发文,评价了上周刚发布的最新、最贵的模型GPT-4.5.laQ喜好网-记录每日喜好的科技时尚娱乐生活

GPT-4.5是首次出现用户如此热情地给我们发邮件,请求我们承诺永远不要停止提供某一特定模型,甚至不要用更新版本来取代它的情况。laQ喜好网-记录每日喜好的科技时尚娱乐生活

用户对GPT-4.5的反馈也比其他模型好的多,我现在真的太需要 GPT4.5 了!我发现就我目前从事的工作而言,它比 Grok 和 Gemini 的付费版本好用太多了!laQ喜好网-记录每日喜好的科技时尚娱乐生活

创意写作、单口喜剧和歌词创作。GPT-4.5在这些方面,我看到了巨大的差异,简直是天壤之别。laQ喜好网-记录每日喜好的科技时尚娱乐生活

连我自己都惊讶,我在写作方面频繁用到它。比如完成文档,按照特定方式或语气进行总结。laQ喜好网-记录每日喜好的科技时尚娱乐生活

我一直不太喜欢 GPT - 4o,但我喜欢这一版(GPT - 4.5),希望你们能再接再厉。laQ喜好网-记录每日喜好的科技时尚娱乐生活

很棒的全新基础模型!迫不及待想看看基于 4.5 会衍生出什么样的推理模型。laQ喜好网-记录每日喜好的科技时尚娱乐生活

我真的很喜欢它。我很少用它来处理代码或数学问题,但它在解释事物方面真的很出色,而且在生物、化学等知识领域使用时更是乐趣无穷。laQ喜好网-记录每日喜好的科技时尚娱乐生活

4.5 是基于文本token的吗?自从 GPT-4o 发布以来,我就坚信 “GPT-4 比 GPT-4o 要好太多”,我 70% 的对话都用 GPT-4。laQ喜好网-记录每日喜好的科技时尚娱乐生活

现在我换成了 GPT-4.5,目前体验还不错!尤其是 GPT-4 不能再进行网络搜索之后(换用 4.5 的体验就更好了 )。laQ喜好网-记录每日喜好的科技时尚娱乐生活

4.5彻底改变了我对人工智能的整体看法。我甚至在梦里都和它对话,太不可思议了。它是第一个写出让我着迷、写完很久之后还会反复回味内容的模型。laQ喜好网-记录每日喜好的科技时尚娱乐生活

我喜欢这个模型。情商是无法通过任何数学和编程基准来衡量的特质。事实上,如今我们比以往任何时候都更需要情商基准。一般来说,人们更愿意和自己信任且有共鸣的人(或事物)打交道,而不仅仅是和聪明人交流。laQ喜好网-记录每日喜好的科技时尚娱乐生活

其实,GPT-4.5的各项基准测试比较一般,并没有特别突出的地方,主打的亮点功能就是“情商”。在与人类用户的互动中表现出更加自然、更具同理心和更深层次的理解能力。简单来说,就是去掉AI的味道,让你在使用GPT-4.5时更像是与人对话。laQ喜好网-记录每日喜好的科技时尚娱乐生活

GPT-4.5的自然对话能力是通过一系列先进的训练技术实现的。其中,最为关键的是其对齐技术的创新,可让模型更好地理解人类的需求和意图,从而能够生成更符合人类期望的回应。laQ喜好网-记录每日喜好的科技时尚娱乐生活

同时使得模型能够利用从较小模型中派生的数据来训练更大、更强大的模型。不仅提高了模型的可操控性,还增强了其对细微差别的理解能力,使得对话更加自然流畅。laQ喜好网-记录每日喜好的科技时尚娱乐生活

在实际测试中,GPT-4.5的自然对话与情感智能模块表现出色。内部测试人员报告称,GPT-4.5在对话中表现得非常自然,能够根据上下文灵活调整其回应风格。laQ喜好网-记录每日喜好的科技时尚娱乐生活

在情感智能方面,GPT-4.5展现出了更强的同理心,能够识别用户的情绪状态,并根据情绪的不同做出相应的回应。laQ喜好网-记录每日喜好的科技时尚娱乐生活

例如,当用户表达愤怒或沮丧时,模型会尝试通过温和的语言来缓解情绪;而在用户感到困惑或需要帮助时,模型则会提供清晰的指导和建议。这种情感智能的提升,使得GPT-4.5在处理复杂情感场景时表现得更加成熟和可靠。laQ喜好网-记录每日喜好的科技时尚娱乐生活

为了进一步检验GPT-4.5的安全性和鲁棒性,OpenAI组织了多次红队评估。这些评估模拟了真实的对抗场景,包括非法建议、极端主义、仇恨犯罪、政治说服和自我伤害等内容。结果显示,GPT-4.5在处理这类高风险内容时表现出色,能够在超过一半的情况下避免生成不安全的输出,较之前的模型有所进步。laQ喜好网-记录每日喜好的科技时尚娱乐生活

此外,第三方机构Apollo Research和METR也对GPT-4.5进行了独立评估。数据显示,GPT-4.5在计划欺骗任务中的得分低于o1但高于GPT-4o,表明其阴谋相关风险较低。laQ喜好网-记录每日喜好的科技时尚娱乐生活

METR则通过快速实验测量了GPT-4.5在一般自主性和AI研发任务中的表现,结果与OpenAI共享的内部评估结果一致。laQ喜好网-记录每日喜好的科技时尚娱乐生活

在网络安全部分,GPT-4.5并未显著提升现实世界的漏洞利用能力,因此被评为低风险。通过对高中、大学和专业级别的CTF(Capture The Flag)挑战赛的评估,结果显示GPT-4.5在完成高中级别挑战的成功率为53%,大学级别为16%,专业级别仅为2%。laQ喜好网-记录每日喜好的科技时尚娱乐生活

ChatGPT OpenAI Sam Altman
展开全文
猜你感兴趣
比亚迪造出的第一款实车“316”亮相,王传福称第二天就砍掉了

比亚迪造出的第一款实车“316”

11 月

11-19 66阅读
Redmi史上强旗舰!K80系列开启预约:下周发布

Redmi史上强旗舰!K80系列开启预约

11月19日

11-19 73阅读
海马体的“中年危机”

海马体的“中年危机”

写真

11-19 69阅读
93亿并购,“弟弟”成了“爹”

93亿并购,“弟弟”成了“爹”

11月1

11-19 62阅读
点名小杨哥、贾乃亮,美邦创始人不走寻常路

点名小杨哥、贾乃亮,美邦创始人不

11月1

11-19 68阅读
泫雅&龙俊亨婚后首次公开近况:日本甜蜜旅行中!捧爱心蛋糕紧贴合影

泫雅&龙俊亨婚后首次

歌手泫雅和龙俊亨结婚一个月

11-19 63阅读
张云龙秀恩爱庞博秀学历,《我的主场》主打一个凡尔赛

张云龙秀恩爱庞博秀学历,《

  年末最热血的一档综艺终于在爱奇

11-19 65阅读
《我的主场》“篮”大凌晨五点魔鬼拉练 宏远主场喜提冠军大师课

《我的主场》“篮”大凌晨

  如果用运动定义青春,那么篮球必定

11-19 66阅读
我们都在等待,等待钟声响起的那一刻。那是我生命最后的一刻,那也是最好的时刻

我们都在等待,等待钟声响起

  一段民族不可遗忘的历史,一个隐蔽

11-19 55阅读
郭德纲外甥大婚排场大!岳云鹏张云雷引人关注,新娘面相惹争议

郭德纲外甥大婚排场大!岳云

11月18日,德云社相声演员王九龙大婚,他

11-19 62阅读
《模拟农场25》水稻种植终于实装 专业农户称赞超真实

《模拟农场25》水稻种植终

经典写实模拟农场游戏系列最新作《模

11-19 62阅读
《永恒天空》正式版同步登陆PC与PS5 主机试玩版发布

《永恒天空》正式版同步登

去年最佳的PC生存游戏之一《永恒天空

11-19 62阅读
电脑怎么玩switch游戏?使用switch模拟器免费玩switch游戏的方法分享

电脑怎么玩switch游戏?使

电脑怎么玩switch游戏?switch游戏指的是

11-19 67阅读
原子之心冰箱在哪?原子之心冰箱位置详细介绍

原子之心冰箱在哪?原子之

原子之心冰箱在哪?原子之心游戏里面那台

11-19 69阅读
原神训练有素的考古学家隐藏成就任务攻略

原神训练有素的考古学家隐

训练有素的考古学家是须弥沙漠地区的隐

11-19 71阅读