超越通用基准测试:Yourbench 如何让企业用实际数据评估 AI 模型

4个月前 科技 27观看
摘要 每发布一个 AI 模型,总会附带一些图表,吹嘘它在某个基准测试或评估矩阵中如何超越竞争对手。然而,这些基准测试通常只检验模型的通用能力。对于想要使用模型和基于大语言模型的 agent 的组织来

每发布一个 AI 模型,总会附带一些图表,吹嘘它在某个基准测试或评估矩阵中如何超越竞争对手。mTI喜好网-记录每日喜好的科技时尚娱乐生活

然而,这些基准测试通常只检验模型的通用能力。对于想要使用模型和基于大语言模型的 agent 的组织来说,要评估 agent 或模型对其特定需求的理解程度却相当困难。mTI喜好网-记录每日喜好的科技时尚娱乐生活

模型仓库 Hugging Face 推出了开源工具 Yourbench,开发者和企业可以创建自己的基准测试,用内部数据来测试模型性能。mTI喜好网-记录每日喜好的科技时尚娱乐生活

Hugging Face 评估研究团队成员 Sumuk Shashidhar 在 X 平台上宣布了 Yourbench。该功能提供"基于任何文档的自定义基准测试和合成数据生成功能。这是改进模型评估方式的重要一步。"mTI喜好网-记录每日喜好的科技时尚娱乐生活

他补充说,Hugging Face 知道"对许多用例来说,真正重要的是模型在特定任务上的表现。Yourbench 让你可以评估对你来说最重要的方面。"mTI喜好网-记录每日喜好的科技时尚娱乐生活

创建自定义评估mTI喜好网-记录每日喜好的科技时尚娱乐生活

Hugging Face 在一篇论文中表示,Yourbench 通过复制大规模多任务语言理解 (MMLU) 基准测试的子集来工作,"使用最少的源文本,总推理成本不到 15 美元,同时完美保持模型性能的相对排名。"mTI喜好网-记录每日喜好的科技时尚娱乐生活

在使用 Yourbench 之前,组织需要对文档进行预处理。这包括三个阶段:mTI喜好网-记录每日喜好的科技时尚娱乐生活

文档接收 用于"规范化"文件格式。mTI喜好网-记录每日喜好的科技时尚娱乐生活

语义分块 将文档分解以满足上下文窗口限制并集中模型的注意力。mTI喜好网-记录每日喜好的科技时尚娱乐生活

文档总结mTI喜好网-记录每日喜好的科技时尚娱乐生活

接下来是问答生成过程,从文档信息中创建问题。用户可以在这个阶段引入自选的大语言模型,看哪个模型能最好地回答这些问题。mTI喜好网-记录每日喜好的科技时尚娱乐生活

Hugging Face 用多个模型测试了 Yourbench,包括 DeepSeek V3 和 R1 模型、阿里巴巴的 Qwen 系列模型 (包括推理模型 Qwen QwQ)、Mistral Large 2411 和 Mistral 3.1 Small、Llama 3.1 和 3.3、Gemini 2.0 Flash、Gemini 2.0 Flash Lite 和 Gemma 3、GPT-4o、GPT-4o-mini 和 o3 mini,以及 Claude 3.7 Sonnet 和 Claude 3.5 Haiku。mTI喜好网-记录每日喜好的科技时尚娱乐生活

Shashidhar 表示,Hugging Face 还对这些模型进行了成本分析,发现 Qwen 和 Gemini 2.0 Flash "以极低的成本产生了巨大的价值。"mTI喜好网-记录每日喜好的科技时尚娱乐生活

计算限制mTI喜好网-记录每日喜好的科技时尚娱乐生活

然而,基于组织文档创建自定义大语言模型基准测试是有代价的。Yourbench 需要大量计算能力才能运行。Shashidhar 在 X 上表示,公司正在"尽快增加计算能力"。mTI喜好网-记录每日喜好的科技时尚娱乐生活

Hugging Face 运行着多个 GPU,并与 Google 等公司合作使用他们的云服务进行推理任务。VentureBeat 就 Yourbench 的计算使用情况联系了 Hugging Face。mTI喜好网-记录每日喜好的科技时尚娱乐生活

基准测试并非完美mTI喜好网-记录每日喜好的科技时尚娱乐生活

基准测试和其他评估方法可以让用户了解模型的表现,但这些并不能完全反映模型在日常使用中的表现。mTI喜好网-记录每日喜好的科技时尚娱乐生活

有些人甚至质疑基准测试是否显示了模型的局限性,并可能导致对其安全性和性能做出错误判断。一项研究还警告说,对 agent 进行基准测试可能会"产生误导"。mTI喜好网-记录每日喜好的科技时尚娱乐生活

然而,企业现在无法避免对模型进行评估,因为市场上有很多选择,技术领导者需要证明使用 AI 模型不断上涨的成本是合理的。这催生了多种测试模型性能和可靠性的方法。mTI喜好网-记录每日喜好的科技时尚娱乐生活

Google DeepMind 推出了 FACTS Grounding,用于测试模型基于文档信息生成事实准确回应的能力。一些耶鲁大学和清华大学的研究人员开发了自调用代码基准测试,为企业选择适合的编程大语言模型提供指导。mTI喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
24小时动态血压监测!华为WATCH D2预售:到手价2888元

24小时动态血压监测!华为WATCH D2

11月19日

11-19 105阅读
男子为骗保开车撞树不慎当场身亡 系团伙自导自演:已骗90多万

男子为骗保开车撞树不慎当场身亡

11月19日

11-19 123阅读
SVM频闪指标低的旗舰!iQOO Neo10系列屏幕参数出炉

SVM频闪指标低的旗舰!iQOO Neo10

11月18日

11-19 116阅读
TGA 2024 提名名单将于 11 月 19 日北京时间公布

TGA 2024 提名名单将于 11 月 19

11-19 138阅读
英伟达发布PC端Nvidia应用,取代GeForce Experience

英伟达发布PC端Nvidia应用,取代Ge

11-19 124阅读
为什么说当下是最适合李子柒回归的时候?

为什么说当下是最适合李子

作者 / 向   向运营 / 狮子座携“

11-19 102阅读
抖音短剧《大话·大话西游》开播 33位喜剧人出演

抖音短剧《大话·大话西游

11月8日消息,据抖音集团官方公众号透露,

11-19 107阅读
这次,李庚希“底裤被扒光”,孙红雷的话,终于有人信了

这次,李庚希“底裤被扒光”

11-19 104阅读
高燃励志电影《倒数回击》定档11月20日 甜妹热辣“爆改”逆袭浴火人生

高燃励志电影《倒数回击》

  由洪子烜导演,温贞菱、丁宁主演的

11-19 98阅读
腾讯的这部甜宠剧,高颜值cp让人沦陷,男二也让人心动

腾讯的这部甜宠剧,高颜值cp

2020年4月10日,甜宠剧《致我们甜甜

11-19 112阅读
《最终幻想7》重制版最终章剧情已敲定 已开始制作

《最终幻想7》重制版最终

在韩国举行的G-STAR讨论会上,《最终幻

11-19 120阅读
奥特曼格斗进化0怎么获得奥特之父?奥特曼格斗进化0解锁奥父教程

奥特曼格斗进化0怎么获得

《奥特曼格斗进化0》游戏中玩家可以操

11-19 209阅读
原神流转存续的花神诞祭主线任务攻略

原神流转存续的花神诞祭主

流转存续的花神诞祭是原神须弥地区魔神

11-19 132阅读
原神已然来临的花神诞祭任务攻略

原神已然来临的花神诞祭任

原神已然来临的花神诞祭是原神须弥地区

11-19 121阅读
饥荒饥饿腰带制作方法及制作材料分享

饥荒饥饿腰带制作方法及制

饥饿腰带是饥荒游戏里面的一件魔法物品

11-19 135阅读