Anthropic 的 Claude 3.7 Sonnet 推理模型可以按需延长思考时间

2个月前 科技 13观看
摘要 人工智能模型开发公司 Anthropic PBC 推出了一款名为 Claude 3.7 Sonnet 的前沿模型,向 OpenAI、DeepSeek Ltd. 等业内公司发起了挑战。与之前的模型不同,Claude 3.7 Sonnet 能够根据用户的要

人工智能模型开发公司 Anthropic PBC 推出了一款名为 Claude 3.7 Sonnet 的前沿模型,向 OpenAI、DeepSeek Ltd. 等业内公司发起了挑战。woW喜好网-记录每日喜好的科技时尚娱乐生活

与之前的模型不同,Claude 3.7 Sonnet 能够根据用户的要求,对问题进行任意时长的"思考"。根据其思考时间的长短,其回答可能会有很大的差异。woW喜好网-记录每日喜好的科技时尚娱乐生活

该公司表示,Claude 3.7 Sonnet 是首个"混合 AI 推理模型",因为它既可以实时回答,也可以根据需要生成经过深思熟虑的回答。用户可以选择何时激活其推理能力,并指定希望它思考问题的时长。woW喜好网-记录每日喜好的科技时尚娱乐生活

Claude 3.7 Sonnet 现已向所有用户开放,包括免费用户,但只有付费订阅用户才能使用其高级推理功能。免费用户只能使用实时版本,不过该公司表示这相比其前身 Claude 3.5 Sonnet 仍有所改进。woW喜好网-记录每日喜好的科技时尚娱乐生活

该公司表示,Claude 3.7 Sonnet 的收费标准为每百万输入 token 3 美元,这意味着你可以输入约 75 万字 (超过《指环王》三部曲的总字数) 只需 3 美元。输出则收取每百万 token 15 美元。woW喜好网-记录每日喜好的科技时尚娱乐生活

因此,Claude 3.7 Sonnet 的价格比 OpenAI 的 o3-mini 推理模型和 DeepSeek 的 R1 要贵,后两者的价格分别便宜约三倍和六倍。不过,Anthropic 的模型一直较为昂贵,用户使用 Claude 3.5 Sonnet 时支付的费率完全相同。所以他们无需额外付费就能获得新的推理功能。woW喜好网-记录每日喜好的科技时尚娱乐生活

Claude 3.7 Sonnet 是该公司首次尝试开发推理模型。与传统模型相比,推理模型需要更多的计算能力和更长的响应时间。它们的工作原理是将用户的问题或难题分解成一系列小步骤,分别考虑每个步骤后再整合回答,这种技术通常能产生更好的答案。woW喜好网-记录每日喜好的科技时尚娱乐生活

目前,用户需要自行选择 Claude 3.7 Sonnet 思考问题的时长。但在即将发布的更新中,该公司表示模型将能够自行确定最合适的思考时间,在成本和答案质量之间取得最佳平衡。woW喜好网-记录每日喜好的科技时尚娱乐生活

Anthropic 的产品和研究主管 Dianne Penn 在接受 VentureBeat 采访时表示,目标是让模型能够判断何时需要即时回答,何时需要更深入的思考。woW喜好网-记录每日喜好的科技时尚娱乐生活

"模型本身应该能识别何时需要更深入的思考并作出调整,而不是要求用户明确选择不同的推理模式,"她说。woW喜好网-记录每日喜好的科技时尚娱乐生活

Claude 3.7 Sonnet 的另一个亮点是它会通过"可视化草稿本"展示其内部思考过程。Penn 表示,用户可以看到大多数提示的完整思维链,但在某些情况下,出于信任和安全考虑,可能会隐藏某些元素。woW喜好网-记录每日喜好的科技时尚娱乐生活

在性能方面,Claude 3.7 Sonnet 与竞争对手相比表现出色,在真实世界编程基准测试 SWE-Bench 上得分为 62.3%,而 OpenAI 的 o3-mini 为 49.3%,DeepSeek R1 为 49.2%。woW喜好网-记录每日喜好的科技时尚娱乐生活

在另一项用于衡量其与模拟用户和外部应用程序接口交互能力的测试 TAU-Bench 中,Claude 3.7 Sonnet 得分为 81.2%,超过了 OpenAI o1 模型的 73.5%。woW喜好网-记录每日喜好的科技时尚娱乐生活

该公司补充说,Claude 3.7 Sonnet 还将回答更多问题,减少拒绝回应的情况。这是因为它能够更好地区分良性和有害的提示。woW喜好网-记录每日喜好的科技时尚娱乐生活

编程模型和更多资金即将到来woW喜好网-记录每日喜好的科技时尚娱乐生活

除了推理模型外,Anthropic 还推出了一个名为 Claude Code 的新模型,目前作为研究预览版提供,更专注于编程任务。woW喜好网-记录每日喜好的科技时尚娱乐生活

在演示中,该公司展示了 Claude Code 如何通过单个提示(如"解释这个项目结构")分析开发项目。它还使开发者能够通过输入描述如何修改代码的普通英语提示来修改代码库。完成更改后,它会描述所做的编辑,然后测试错误或将更新推送到 GitHub 仓库。woW喜好网-记录每日喜好的科技时尚娱乐生活

该公司表示,Claude Code 目前向有限数量的用户开放测试,采用先到先得的原则提供访问权限,因此想要尝试的开发者不应该延迟。woW喜好网-记录每日喜好的科技时尚娱乐生活

今天宣布的新模型代表着 Anthropic 的一个重要突破,而且可能很快会有更多进展。据《华尔街日报》今天的另一份报道称,该公司正在就 35 亿美元的融资轮进行深入谈判。woW喜好网-记录每日喜好的科技时尚娱乐生活

这个金额显著高于最初计划募集的 20 亿美元,据《华尔街日报》援引两位知情匿名消息源称,这将使该创业公司的估值达到约 615 亿美元。据称 Lightspeed Venture Partners 将领投此轮融资,General Catalyst 和其他多家机构也将参与。woW喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
那些大牌商场,正被本土商超“摁在地上摩擦”

那些大牌商场,正被本土商超“摁在

几大高奢商场在上半年的业绩都不

11-19 66阅读
OPPO Reno 13 系列手机外观公布,代言人宋雨琦

OPPO Reno 13 系列手机外观公布,

11 月

11-19 64阅读
一个融了16轮的IPO,投资人集体赚钱了

一个融了16轮的IPO,投资人集体赚

近期

11-19 70阅读
国家级基金、江苏省级母基金押注人形机器人

国家级基金、江苏省级母基金押注

近日,

11-19 66阅读
OpenAI“杀死”在线教育巨头

OpenAI“杀死”在线教育巨头

文章来源:智东西图片来源:由无界AI

11-19 66阅读
吴秀波息影一年后首现身, 吴秀波出轨门怎么回事?

吴秀波息影一年后首现身,

吴秀波原本是圈中一线的演技派男

11-19 64阅读
《号手就位》主角为什么都选择入伍,最后他们如何了?

《号手就位》主角为什么都

《号手就位》是中国首部火箭军题

11-19 61阅读
网络电影《浴血无名·奔袭》入选“五个一工程” 海空雄鹰文化传媒再创主旋律佳作

网络电影《浴血无名·奔袭

  11月18日,中共中央宣传部公布第十

11-19 62阅读
零容忍!税务部门公布3起网络主播偷税被处罚案件

零容忍!税务部门公布3起网

11月15日消息,近

11-19 70阅读
微念称与李子柒的案件已完全和解:账号其本人运营 品牌由微念经营

微念称与李子柒的案件已完

11月13日消息,日

11-19 64阅读
N网怎么开启18+开关?NEXUSMODS开启18+开关的详细操作教程

N网怎么开启18+开关?NEXUS

N网怎么开启18+开关?N网全称NEXUSMODS,是

11-19 93阅读
卧龙苍天陨落武将韩当解锁方法详细介绍

卧龙苍天陨落武将韩当解锁

韩当是三国历史上孙吴阵营的名将,在卧龙

11-19 72阅读
原子之心展览园死者位置_展览园全部死者位置一览

原子之心展览园死者位置_

原子之心游戏的展览园区域中一共拥有11

11-19 69阅读
原子之心展览园地下区域死者位置介绍

原子之心展览园地下区域死

原子之心游戏里面玩家可以与所有死者对

11-19 67阅读
饥荒制作刷肉机快速刷肉的详细操作方法

饥荒制作刷肉机快速刷肉的

大肉是饥荒游戏里面的重要食物,主要是猪

11-19 65阅读