Anthropic发布首个混合推理模型Claude 3.7 Sonnet:编码能力一流,还可自由控制模型思考时间

2个月前 科技 18观看
摘要 2月25日消息,OpenAI的美国最大竞争对手Anthropic最新发布了一款名为Claude 3.7 Sonnet的新模型,以及一款编码工具Claude Code。Anthropic表示,Claude 3.7 Sonnet是其最智能的AI模型,也是首个混合推理模型,同时

2月25日消息,OpenAI的美国最大竞争对手Anthropic最新发布了一款名为Claude 3.7 Sonnet的新模型,以及一款编码工具Claude Code。3xY喜好网-记录每日喜好的科技时尚娱乐生活

Anthropic表示,Claude 3.7 Sonnet是其最智能的AI模型,也是首个混合推理模型,同时具备深度推理(扩展思维模式,一步一步思考复杂答案)与快速回复(标准模式,实时生成答案)的能力。API用户可以对模型的思考时间进行细粒度控制。3xY喜好网-记录每日喜好的科技时尚娱乐生活

Claude 3.7 Sonnet在编码和前端Web开发方面显著提升,实现了全面领先。3xY喜好网-记录每日喜好的科技时尚娱乐生活

Claude 3.7 Sonnet的价格与其前代大模型Claude 3.5 Sonnet相同:每百万输入token 3 美元,每百万输出token 15 美元。3xY喜好网-记录每日喜好的科技时尚娱乐生活

首个混合推理模型3xY喜好网-记录每日喜好的科技时尚娱乐生活

Anthropic强调,Claude 3.7 Sonnet与市面上的其他推理模型不同,它是一款混合推理模型。3xY喜好网-记录每日喜好的科技时尚娱乐生活

“正如人类使用同一个大脑进行快速反应和深度思考一样,我们认为推理应该是前沿模型的综合能力,而不是完全独立的模型。这种统一的方法也为用户创造了更无缝的体验。”3xY喜好网-记录每日喜好的科技时尚娱乐生活

首先,Claude 3.7 Sonnet既是一个普通的大语言模型,也是一个推理模型:你可以选择什么时候让模型快速回答,什么时候让它在回答之前思考更长时间。3xY喜好网-记录每日喜好的科技时尚娱乐生活

在标准模式下,Claude 3.7Sonnet代表了Claude 3.5 Sonnet的升级版。在扩展思维模式下,它在回答之前进行深度思考,这提高了Claude 3.7Sonnet在数学、物理、指令遵循、编码和许多其他任务上的表现。3xY喜好网-记录每日喜好的科技时尚娱乐生活

第二,当通过API使用Claude 3.7 Sonnet时,用户可以精准控制模型的思考时间,开发者可以通过精准控制模型在处理查询时使用的计算资源量,API用户可以告诉Claude思考的数量不超过 N 个token,N 的值可以是任何值,但输出上限不能超过 128K个token。模型能力的表现,取决于允许思考的token数量,让开发者在速度(和成本)与答案质量之间进行权衡。3xY喜好网-记录每日喜好的科技时尚娱乐生活

事实上,早在上周,就有媒体曝光这款模型的精准控制模型思考时间的能力。业内认为,这为开发者提高了成本效益,使他们能够根据具体需求平衡成本、速度和性能。相比之下,OpenAI在推理能力上的设计选择较为简单,目前提供的是“低”、“中”和“高”三个固定设置。3xY喜好网-记录每日喜好的科技时尚娱乐生活

从产品设计来看,OpenAI更注重面向普通消费者和个人专业用户,因此采用简单易懂的“低-中-高”命名方式,而Anthropic则更专注于企业市场,其推出的精细化控制功能,允许开发者更精准的来调节AI模型的计算资源,使得企业能够在成本、速度和性能之间找到最佳平衡点。3xY喜好网-记录每日喜好的科技时尚娱乐生活

第三,Claude 3.7 Sonnet将优化重点放在更好地反映企业实际使用LLM的现实世界任务上,对数学和计算机科学问题的优化程度较低。3xY喜好网-记录每日喜好的科技时尚娱乐生活

Anthropic指出,早期测试证明了Claude在全面编码能力方面的领导地位,Claude 3.7 Sonnet在编码和前端Web开发方面的能力都有显著提升,实现了行业全面领先。在处理复杂代码库到高级工具使用等领域都有重大改进。在规划代码更改和处理全栈更新方面,它比任何其他模型都要好得多。3xY喜好网-记录每日喜好的科技时尚娱乐生活

Claude 3.7 Sonnet在SWE bench Verified上实现了最先进的性能,该评估用于展示AI模型解决现实世界软件问题的能力。3xY喜好网-记录每日喜好的科技时尚娱乐生活


Claude 3.7 Sonnet在TAU工作台上实现了最先进的性能。3xY喜好网-记录每日喜好的科技时尚娱乐生活


Claude 3.7 Sonnet在指令遵循、一般推理、多模态能力和代理编码方面表现出色,扩展思维在数学和科学方面显著提升。3xY喜好网-记录每日喜好的科技时尚娱乐生活

编码工具Claude Code3xY喜好网-记录每日喜好的科技时尚娱乐生活

Anthropic还发布了第一个代理编码工具Claude Code,目前提供预览版。3xY喜好网-记录每日喜好的科技时尚娱乐生活

Claude Code可以搜索和读取代码、编辑文件、编写和运行测试、将代码提交和推送到GitHub,并使用命令行工具等。3xY喜好网-记录每日喜好的科技时尚娱乐生活

“Claude Code是一个早期产品,但对我们的团队来说已经变得不可或缺,特别是在测试驱动开发、调试复杂问题和大规模重构方面。”3xY喜好网-记录每日喜好的科技时尚娱乐生活

Anthropic称,在早期测试中,Claude Code可以一次性完成了通常需要 45 分钟以上手动操作才能完成的任务,从而减少了开发时间和开销。3xY喜好网-记录每日喜好的科技时尚娱乐生活

在接下来的几周里,Anthropic计划根据使用情况不断改进Claude Code:增强工具调用的可靠性,增加对长时间运行命令的支持,改进应用内渲染,并扩展Claude对其功能的理解。3xY喜好网-记录每日喜好的科技时尚娱乐生活

开发者可通过加入Claude Code预览版反馈自己的使用感受和需求,Anthropic团队将会采纳这些反馈持续构建和改进Claude Code。
3xY喜好网-记录每日喜好的科技时尚娱乐生活

3xY喜好网-记录每日喜好的科技时尚娱乐生活

3xY喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
超204万人预约华为Mate 70:纯血鸿蒙+麒麟芯自研完全体来了

超204万人预约华为Mate 70:纯血鸿

11月19日

11-19 67阅读
小米手机快速占领高端:4000-6000元份额大涨

小米手机快速占领高端:4000-6000

11月18日

11-19 68阅读
‌上汽奥迪首款B级车型将明年年中发布‌

‌上汽奥迪首款B级车型将明年年

11-19 65阅读
致命错误!Sam Altman发一张对比图,遭到大量吐槽

致命错误!Sam Altman发一张对比图

图片来源:由无界AI生成OpenAI联合

11-19 74阅读
大模型的效率腾飞,彩云科技做对了什么?

大模型的效率腾飞,彩云科技做对了

对于绝大多数AI创业者来说,AGI的

11-19 64阅读
《权利的游戏》二丫结局是什么?她杀死了夜王?

《权利的游戏》二丫结局是

《权利的游戏》二丫结局是什在美

11-19 63阅读
《藏海花之暗巢汹涌》定档11月14日 古穴探险再寻迷踪嗜血凶怪惊悚升级

《藏海花之暗巢汹涌》定档

  改编自南派三叔原著小说《藏海花

11-19 70阅读
“咪粉嗨购节”上线  咪咕音乐携周杰伦加码“双十一”福利

“咪粉嗨购节”上线 咪咕

  双11来了,为了凑满减捆绑废物单品

11-19 61阅读
李宇春与康姆士乐队合唱《恐龙一样勇敢》 讲述小女孩与病魔抗争的故事

李宇春与康姆士乐队合唱《

  《有歌2024》第五期,李宇春和康姆

11-19 64阅读
《白夜追凶》续集来了 白夜破晓全阵容官宣:潘粤明等原班人马

《白夜追凶》续集来了 白

11月16日消息,“

11-19 66阅读
《天穗之咲稻姬外传》确定制作 本篇Steam平台限时促销中

《天穗之咲稻姬外传》确定

Marvelous Inc.(代表取缔役社长:佐藤澄宣

11-19 67阅读
《最终幻想7》重制版最终章剧情已敲定 已开始制作

《最终幻想7》重制版最终

在韩国举行的G-STAR讨论会上,《最终幻

11-19 66阅读
咸鱼之王兑换码2024,咸鱼之王礼包码100连抽兑换码最新分享

咸鱼之王兑换码2024,咸鱼

咸鱼之王是一款非常魔性的放置挂机手游

11-19 71阅读
大掌门2最强阵容_大掌门2最新最强阵容

大掌门2最强阵容_大掌门2

大掌门2是一款以武侠为背景的RPG动作手

11-19 67阅读
在360安装目录创建exe文件提示目标文件夹访问被拒绝的解决方法

在360安装目录创建exe文件

最近有网友反映,自己想要在360安全卫士

11-19 96阅读