Anthropic 的 Claude 3.7 Sonnet 推理模型可以按需延长思考时间

5个月前 科技 24观看
摘要 人工智能模型开发公司 Anthropic PBC 推出了一款名为 Claude 3.7 Sonnet 的前沿模型,向 OpenAI、DeepSeek Ltd. 等业内公司发起了挑战。与之前的模型不同,Claude 3.7 Sonnet 能够根据用户的要

人工智能模型开发公司 Anthropic PBC 推出了一款名为 Claude 3.7 Sonnet 的前沿模型,向 OpenAI、DeepSeek Ltd. 等业内公司发起了挑战。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

与之前的模型不同,Claude 3.7 Sonnet 能够根据用户的要求,对问题进行任意时长的"思考"。根据其思考时间的长短,其回答可能会有很大的差异。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

该公司表示,Claude 3.7 Sonnet 是首个"混合 AI 推理模型",因为它既可以实时回答,也可以根据需要生成经过深思熟虑的回答。用户可以选择何时激活其推理能力,并指定希望它思考问题的时长。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

Claude 3.7 Sonnet 现已向所有用户开放,包括免费用户,但只有付费订阅用户才能使用其高级推理功能。免费用户只能使用实时版本,不过该公司表示这相比其前身 Claude 3.5 Sonnet 仍有所改进。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

该公司表示,Claude 3.7 Sonnet 的收费标准为每百万输入 token 3 美元,这意味着你可以输入约 75 万字 (超过《指环王》三部曲的总字数) 只需 3 美元。输出则收取每百万 token 15 美元。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

因此,Claude 3.7 Sonnet 的价格比 OpenAI 的 o3-mini 推理模型和 DeepSeek 的 R1 要贵,后两者的价格分别便宜约三倍和六倍。不过,Anthropic 的模型一直较为昂贵,用户使用 Claude 3.5 Sonnet 时支付的费率完全相同。所以他们无需额外付费就能获得新的推理功能。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

Claude 3.7 Sonnet 是该公司首次尝试开发推理模型。与传统模型相比,推理模型需要更多的计算能力和更长的响应时间。它们的工作原理是将用户的问题或难题分解成一系列小步骤,分别考虑每个步骤后再整合回答,这种技术通常能产生更好的答案。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

目前,用户需要自行选择 Claude 3.7 Sonnet 思考问题的时长。但在即将发布的更新中,该公司表示模型将能够自行确定最合适的思考时间,在成本和答案质量之间取得最佳平衡。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

Anthropic 的产品和研究主管 Dianne Penn 在接受 VentureBeat 采访时表示,目标是让模型能够判断何时需要即时回答,何时需要更深入的思考。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

"模型本身应该能识别何时需要更深入的思考并作出调整,而不是要求用户明确选择不同的推理模式,"她说。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

Claude 3.7 Sonnet 的另一个亮点是它会通过"可视化草稿本"展示其内部思考过程。Penn 表示,用户可以看到大多数提示的完整思维链,但在某些情况下,出于信任和安全考虑,可能会隐藏某些元素。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

在性能方面,Claude 3.7 Sonnet 与竞争对手相比表现出色,在真实世界编程基准测试 SWE-Bench 上得分为 62.3%,而 OpenAI 的 o3-mini 为 49.3%,DeepSeek R1 为 49.2%。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

在另一项用于衡量其与模拟用户和外部应用程序接口交互能力的测试 TAU-Bench 中,Claude 3.7 Sonnet 得分为 81.2%,超过了 OpenAI o1 模型的 73.5%。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

该公司补充说,Claude 3.7 Sonnet 还将回答更多问题,减少拒绝回应的情况。这是因为它能够更好地区分良性和有害的提示。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

编程模型和更多资金即将到来Vx7喜好网-记录每日喜好的科技时尚娱乐生活

除了推理模型外,Anthropic 还推出了一个名为 Claude Code 的新模型,目前作为研究预览版提供,更专注于编程任务。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

在演示中,该公司展示了 Claude Code 如何通过单个提示(如"解释这个项目结构")分析开发项目。它还使开发者能够通过输入描述如何修改代码的普通英语提示来修改代码库。完成更改后,它会描述所做的编辑,然后测试错误或将更新推送到 GitHub 仓库。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

该公司表示,Claude Code 目前向有限数量的用户开放测试,采用先到先得的原则提供访问权限,因此想要尝试的开发者不应该延迟。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

今天宣布的新模型代表着 Anthropic 的一个重要突破,而且可能很快会有更多进展。据《华尔街日报》今天的另一份报道称,该公司正在就 35 亿美元的融资轮进行深入谈判。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

这个金额显著高于最初计划募集的 20 亿美元,据《华尔街日报》援引两位知情匿名消息源称,这将使该创业公司的估值达到约 615 亿美元。据称 Lightspeed Venture Partners 将领投此轮融资,General Catalyst 和其他多家机构也将参与。Vx7喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
小米手机下次相机版本更新增加水印颜色选项,老机型也会版本迭代

小米手机下次相机版本更新增加水

11 月

11-19 113阅读
雷军再回应小米SU7 Ultra车模难抢:行业自动化程度较低,产能严重不足

雷军再回应小米SU7 Ultra车模难

11 月

11-19 118阅读
中国电信完成6G天地一体化测试:这上、下行网速感受下!

中国电信完成6G天地一体化测试:这

11月19日

11-19 125阅读
孙正义黄仁勋互曝往事:差点买下英伟达,错失两千亿美元

孙正义黄仁勋互曝往事:差点买下英

孙正

11-19 110阅读
东方树叶们的「备胎上位史」

东方树叶们的「备胎上位史」

中国

11-19 128阅读
《假日暖洋洋》姚晨与小11岁白宇演 姐弟恋 ,别说,还真甜(假日暖洋洋姚晨与小11岁白宇演)

《假日暖洋洋》姚晨与小11

有生之年,欣喜相逢。 我是温暖,欢迎

11-19 111阅读
贾乃亮帮清购物车, 网友没胆安利给自家老板!

贾乃亮帮清购物车, 网友没

今天双十二,大家剁手了吗!小编是没

11-19 107阅读
NCT DREAM正辑四辑《DREAMSCAPE》登上韩国国内各大专辑周榜一位

NCT DREAM正辑四辑《DREAM

11月11日发行的NCT DREAM正辑

11-19 109阅读
魔兽世界年卡来了 送筋肉鱼人 兔年坐骑,怀旧服幽冥幼龙(魔兽世界年卡来了)

魔兽世界年卡来了 送筋肉

暴雪今天早晨发布了魔兽世界最新的

11-19 99阅读
王宝强新片《金陵福》立项:慈禧御用魔术师的传奇人生

王宝强新片《金陵福》立项

11月13日消息,国

11-19 111阅读
《啪嗒砰》精神续作《Ratatan》新预告片分享

《啪嗒砰》精神续作《Rata

Game Source Entertainment 宣布与开

11-19 132阅读
烟雨江湖千机遗迹怎么开启?烟雨江湖千机遗迹攻略流程

烟雨江湖千机遗迹怎么开启

《烟雨江湖》是一款开放世界武侠冒险手

11-19 211阅读
杀手6第一章变色龙挑战攻略巴黎挑战变色龙教程

杀手6第一章变色龙挑战攻

杀手6是Hitman系列的最新作,这是一款优

11-19 102阅读
卧龙苍天陨落全章节龙脉晶石所在位置详细介绍

卧龙苍天陨落全章节龙脉晶

龙脉晶石是卧龙苍天陨落游戏里面的特殊

11-19 126阅读
原神沙脂蛹怎么获得?原神沙脂蛹采集地点一览

原神沙脂蛹怎么获得?原神

沙脂蛹是原神游戏中须弥地区的特产之一

11-19 124阅读