在通往AGI之路上,红杉中国打了一个共鸣的响指

3个月前 科技 17观看
摘要 红杉中国宣布推出一个全新的AI基准测试xbench。根据xbench的介绍,这是首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制的基准测试


c8M喜好网-记录每日喜好的科技时尚娱乐生活

图片c8M喜好网-记录每日喜好的科技时尚娱乐生活

红杉中国宣布推出一个全新的AI基准测试xbench。c8M喜好网-记录每日喜好的科技时尚娱乐生活

根据xbench的介绍,这是首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制的基准测试。它将在评估和推动AI系统能力提升上限与技术边界的同时,重点量化AI系统在真实场景的效用价值,并长期捕捉Agent产品的关键突破。c8M喜好网-记录每日喜好的科技时尚娱乐生活

面向AI产品做出基准,这在产业、高校和研究机构是常见行为,但红杉中国作为一家投资机构,拿出很重的投入度,“跨界”推出一款专门产品(甚至还附带一篇论文),放在全球投资行业也是头一遭,说明红杉中国不仅有很强的业务洞察和务实姿态,在AI行业的布局决心,还在投资业务上在持续拓展着边界。
c8M喜好网-记录每日喜好的科技时尚娱乐生活

自ChatGPT一炮而红以后,红杉中国可能是最早行动起来全面拥抱AGI的机构。AI六小龙中,红杉中国独中四元,具身智能领域大热的宇树科技、智元机器人,也都是红杉中国的被投企业,今天凭借Manus在Agentic AI领域火热的蝴蝶效应,也在A轮拿下了红杉中国的投资。c8M喜好网-记录每日喜好的科技时尚娱乐生活

当基础大模型和AI应用的大势滚滚向前,“水大鱼大”正渐渐形成共识。今天,红杉中国打出了那象征共鸣的响指。c8M喜好网-记录每日喜好的科技时尚娱乐生活

为什么做基准测试?c8M喜好网-记录每日喜好的科技时尚娱乐生活

不少投资人感慨:“AI一天,人间一年”,但跟不上基础模型快速发展和AI Agent规模化应用的,还有被广泛用于评估AI能力的基准测试(Benchmark)。一个日益尖锐的问题暴露出来:想要真实反映AI系统的客观能力正变得越来越困难。c8M喜好网-记录每日喜好的科技时尚娱乐生活

这其中最直接的表现——基础模型“刷爆”了市面上的基准测试题库,纷纷在各大测试榜单上斩获高分甚至满分。c8M喜好网-记录每日喜好的科技时尚娱乐生活

因此,构建一个更加科学、长效和反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重要需求。xbench就是为了弥补这一鸿沟。c8M喜好网-记录每日喜好的科技时尚娱乐生活

在技术报告的文档里,红杉中国详细解释了推出xbench的原因。早在2022年ChatGPT推出后,红杉中国就开始对AGI进程和主流模型进行的内部月评与汇报。在建设和不断升级“私有题库”xbench的过程中,红杉中国发现主流模型“刷爆”题目的速度越来越快,基准测试的有效时间在急剧缩短。正是由于这一显著变化,红杉中国对现有评估方式产生了质疑——c8M喜好网-记录每日喜好的科技时尚娱乐生活

“当大家纷纷考满分的时候,到底是学生变聪明了,还是卷子出了问题?”c8M喜好网-记录每日喜好的科技时尚娱乐生活

图片c8M喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:OpenAI研究员姚顺雨的个人博客c8M喜好网-记录每日喜好的科技时尚娱乐生活

这促使红杉中国开始思考并准备解决两个核心问题:c8M喜好网-记录每日喜好的科技时尚娱乐生活

第一,模型能力和AI实际效用之间的关系?基准测试的题目越出越难,意义是什么?是否落入了惯性思维?AI落地的实际经济价值真的会和AI做难题呈正相关吗?c8M喜好网-记录每日喜好的科技时尚娱乐生活

第二,不同时间维度上的能力比较:在xbench每一次更换题库之后,我们就失去了对AI能力的前后可比性追踪。因为在新的题库下,模型版本也在迭代,无法比较不同时间维度上单个模型的能力如何变化。在判断创业项目的时候,创业者的“成长斜率”是一个重要依据,但在评估AI能力上,题库的不断更新却反而让判断失效。c8M喜好网-记录每日喜好的科技时尚娱乐生活

为了解决这两个问题,红杉中国给出了新的解题思路:c8M喜好网-记录每日喜好的科技时尚娱乐生活

第一,打破惯性思维,为现实世界的实用性开发新颖的任务设置和评估方式。c8M喜好网-记录每日喜好的科技时尚娱乐生活

当AI进入“下半场”,不仅需要越来越难的Search AI能力的测试基准,也需要一套对齐现实世界专家的实用性任务体系(Utility Tasks)。前者考察的是能力边界,呈现形式是测试得分,而后者考察的实用性任务和环境多样性,商业KPIs和直接的经济产出。c8M喜好网-记录每日喜好的科技时尚娱乐生活

因此,xbench引入了Profession-Aligned的基准概念,接下来的评估会使用“双轨制”,分为AGI Tracking和Profession Aligned,AI将面临更多复杂环境下效用的考察,从业务中收集的动态题集,而不单是更难的智力题。c8M喜好网-记录每日喜好的科技时尚娱乐生活


c8M喜好网-记录每日喜好的科技时尚娱乐生活

图片c8M喜好网-记录每日喜好的科技时尚娱乐生活

第二,建立长青评估体系。静态评估集一旦面世会出现题目泄露导致过拟合,然后迅速失效的问题,xbench将维护一个动态更新的题目扩充评估集来缓解这一现象。c8M喜好网-记录每日喜好的科技时尚娱乐生活

同时,在动态更新的基础上,xbench设计可横向对比的能力指标,用于在时间上观察到排名之外发展速度与关键突破的信号,帮助判断某个模型是否达到市场可落地阈值,以及在什么时间点上,Agent可以接管已有的业务流程,提供规模化服务。c8M喜好网-记录每日喜好的科技时尚娱乐生活

如何理解xbench的意义c8M喜好网-记录每日喜好的科技时尚娱乐生活

让我们先看下xbench的特点:c8M喜好网-记录每日喜好的科技时尚娱乐生活

1. xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线:(1)评估AI系统的能力上限与技术边界;(2)量化AI 系统在真实场景的效用价值(Utility Value)。其中,后者需要动态对齐现实世界的应用需求,基于实际工作流程和具体社会角色,为各垂直领域构建具有明确业务价值的测评标准。c8M喜好网-记录每日喜好的科技时尚娱乐生活

2. xbench 采用长青评估(Evergreen Evalution)机制,通过持续维护并动态更新测试内容,以确保时效性和相关性。xbench将定期测评市场主流Agent产品,跟踪模型能力演进,捕捉Agent产品迭代过程中的关键突破,进而预测下一个Agent 应用的技术-市场契合点(TMF,Tech-Market Fit)。作为独立第三方,xbench致力于为每类产品设计公允的评估环境,提供客观且可复现的评价结果。c8M喜好网-记录每日喜好的科技时尚娱乐生活

3. 首期发布包含两个核心评估集:科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),并对该领域主要产品进行了综合排名。同期提出了垂直领域智能体的评测方法论,并构建了面向招聘(Recruitment)和营销(Marketing)领域的垂类Agent评测框架。c8M喜好网-记录每日喜好的科技时尚娱乐生活

商界曾广泛流传一句话:一流企业做标准,二流企业做品牌,三流企业做产品。xbench本质上是一套评估AI产品的“标准”,而红杉中国要打造一套AGI时代的判断标准,这本身就是一件想象空间极大的事。c8M喜好网-记录每日喜好的科技时尚娱乐生活

很显然,红杉中国将一个本属于内部使用的工具进行“开源”,定是看到了背后更大的可能性。换言之,红杉中国可能在探索适应AGI时代的新的投资方法论。c8M喜好网-记录每日喜好的科技时尚娱乐生活

在xbench的技术报告最后,红杉中国希望更多AGI领域的人士参与进xbench的共建:对于基础模型与Agent开发者,可以使用最新版本的xbench评测集来第一时间验证其产品效果,得到内部黑盒评估集得分;对于垂类Agent开发者、相关领域的专业和企业,欢迎与xbench共建与发布特定行业垂类标准的Profession Aligned xbench;对于从事AI评测研究,具有明确研究想法的研究者,希望获取专业标注并长期维护评估更新,xbench可以帮助AI评估研究想法落地并产生长期影响力。c8M喜好网-记录每日喜好的科技时尚娱乐生活

红杉中国上一次对某个趋势表现出如此之大的信念,还是在2009年。那年的红杉中国年会,主题就是Mobile Only。事实证明,这一极具前瞻的判断帮助红杉中国成为移动互联网时代最成功的投资机构。c8M喜好网-记录每日喜好的科技时尚娱乐生活

我们有理由相信,xbench是红杉中国探索通往AGI时代新路径的尝试。AI应用或许会和当年层出不穷的APP一样,终会迎来大浪淘沙,而那将是最考验投资人的时刻。c8M喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
丰田公开搭载氢发动机的混合动力车,加氢一次续航约 250 公里

丰田公开搭载氢发动机的混合动力

11 月

11-19 133阅读
‌《半条命 2》发售 20 周年,Steam 限时免费领取‌

‌《半条命 2》发售 20 周年,Stea

11-19 154阅读
一个融了16轮的IPO,投资人集体赚钱了

一个融了16轮的IPO,投资人集体赚

近期

11-19 148阅读
国家级基金、江苏省级母基金押注人形机器人

国家级基金、江苏省级母基金押注

近日,

11-19 130阅读
投中的播客栏目,叫“大北窑14F”

投中的播客栏目,叫“大北窑14F”

投中

11-19 139阅读
金鸡奖这一夜,世态炎凉、江湖职位,在王骁身上体现得淋漓尽致

金鸡奖这一夜,世态炎凉、江

11-19 116阅读
龙波 始终亲力亲为,哪个岗位有需要就扑在哪里 优秀新闻工作者 编辑⑨(龙波始终亲力亲为)

龙波 始终亲力亲为,哪个岗

为激励全市新闻战线认真践行“四向

11-19 120阅读
味道研究所 | 橘黄变棕红 这口Q糯甜香深深烙印在你心间(味道研究所橘黄变棕红)

味道研究所 | 橘黄变棕红

© |菜头 遂昌乡村有着独特的

11-19 120阅读
一夜新娘袁昊年龄, 袁昊扮演的秦尚城和花溶在一起了吗

一夜新娘袁昊年龄, 袁昊扮

网剧《一夜新娘》热播,男主袁昊圈

11-19 127阅读
消失三年 复出还是顶流!李子柒为何无法替代

消失三年 复出还是顶流!李

停更三年后,昨日,

11-19 150阅读
不能现实换钱的新型NFC?《宝可梦卡牌P》再创新热潮

不能现实换钱的新型NFC?《

近期《宝可梦卡牌P》APP正式推出,引发

11-19 149阅读
《勇者斗恶龙3重制版》发售再度引发社会现象 DQ休假燃起

《勇者斗恶龙3重制版》发

日本国民RPG《勇者斗恶龙》系列呼声最

11-19 139阅读
空洞骑士苍白矿石位置_空洞骑士苍白矿石所有位置(图片)

空洞骑士苍白矿石位置_空

《空洞骑士》是一款以探索和解谜为核心

11-19 119阅读
帝国时代3亚洲王朝秘籍_帝国时代3秘籍大全

帝国时代3亚洲王朝秘籍_帝

帝国时代3亚洲王朝(Age of Empires III:

11-19 155阅读
奥特曼格斗进化0怎么获得奥特之父?奥特曼格斗进化0解锁奥父教程

奥特曼格斗进化0怎么获得

《奥特曼格斗进化0》游戏中玩家可以操

11-19 229阅读