谷歌发布开源 LMEval:打破AI模型评测壁垒,一键评估,降低成本省时!

2个月前 科技 16观看
摘要 谷歌发布开源 LMEval:打破AI模型评测壁垒,一键评估,降低成本省时!谷歌近日发布的开源框架LMEval,无疑为人工智能(AI)模型评测领域开启了一扇新的大门。这款由科技巨头倾力打造的开源工具,旨在为大语言模型和多模态模型

谷歌发布开源 LMEval:打破AI模型评测壁垒,一键评估,降低成本省时!VW5喜好网-记录每日喜好的科技时尚娱乐生活

谷歌近日发布的开源框架LMEval,无疑为人工智能(AI)模型评测领域开启了一扇新的大门。这款由科技巨头倾力打造的开源工具,旨在为大语言模型和多模态模型提供标准化的评测工具,直击当前评测难题,一键评估,降低成本省时。VW5喜好网-记录每日喜好的科技时尚娱乐生活

首先,我们要理解LMEval的背景和意义。在人工智能领域,评测新型AI模型一直是个难题。不同供应商使用各自的API、数据格式和基准设置,导致跨模型比较耗时且复杂。而LMEval的推出,正是为了解决这一问题,提供一个统一的基准设置,让研究人员和开发者能够展开标准化的评测流程,大幅简化了评测工作,节省了时间和资源。VW5喜好网-记录每日喜好的科技时尚娱乐生活

其次,LMEval的另一个亮点在于其抹平了不同平台之间的接口差异。通过LiteLLM框架,谷歌成功地将Google、OpenAI、Anthropic、Ollama和Hugging Face等平台之间的接口差异降至最小,确保测试能够跨平台无缝运行。这一创新性的解决方案,无疑将加速AI领域的创新步伐。VW5喜好网-记录每日喜好的科技时尚娱乐生活

再者,LMEval的评估类型支持也相当丰富。不仅支持文本评测,还涵盖图像和代码等领域的基准测试。新输入格式可轻松扩展,这意味着该框架能够适应未来可能出现的新领域。此外,LMEval还能识别模型采用的“规避策略”,即故意给出模糊回答以避免生成有风险内容。这一功能对于评估AI模型的潜在风险和安全性具有重要意义。VW5喜好网-记录每日喜好的科技时尚娱乐生活

另外,谷歌还引入了Giskard安全评分,用以展示模型规避有害内容的表现。百分比越高,代表安全性越强。这一创新性指标将有助于提高AI模型在处理有害内容时的表现,从而更好地服务于社会。测试结果存储在自加密的SQLite数据库中,确保数据本地化且不会被搜索引擎索引,兼顾了隐私与便捷。VW5喜好网-记录每日喜好的科技时尚娱乐生活

此外,LMEval还具备增量评估功能。无需在新增模型或问题时重新运行整个测试,仅执行必要的新增测试即可。这一特性将大大提高评测效率,降低计算成本和时间消耗。同时,LMEval还采用多线程引擎并行处理多项计算,进一步提升了评测速度。VW5喜好网-记录每日喜好的科技时尚娱乐生活

为了便于用户使用LMEval,谷歌还开发了LMEvalboard可视化工具。通过雷达图展示模型在不同类别中的表现,用户可深入查看具体任务,精准定位模型错误,并直接比较多个模型在特定问题上的差异。这一工具的使用门槛低,图形化展示一目了然,大大提高了评测的便捷性。VW5喜好网-记录每日喜好的科技时尚娱乐生活

综上所述,谷歌发布的开源框架LMEval无疑是一款具有开创性的评测工具。其标准化评测流程、抹平平台差异、丰富评估类型、识别规避策略、安全评分功能以及可视化工具等特性,将为AI模型评测领域带来革命性的变革。一键评估,降低成本省时,LMEval的推出将为研究人员和开发者节省大量时间和资源,推动人工智能领域的发展迈上新的台阶。VW5喜好网-记录每日喜好的科技时尚娱乐生活

VW5喜好网-记录每日喜好的科技时尚娱乐生活

VW5喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
谷歌搜索涉嫌垄断:Chrome浏览器将被勒令出售

谷歌搜索涉嫌垄断:Chrome浏览器将

11月19日

11-19 121阅读
小米手机快速占领高端:4000-6000元份额大涨

小米手机快速占领高端:4000-6000

11月18日

11-19 106阅读
SVM频闪指标低的旗舰!iQOO Neo10系列屏幕参数出炉

SVM频闪指标低的旗舰!iQOO Neo10

11月18日

11-19 114阅读
“一听别人说‘清华系’,我就感觉压力山大”

“一听别人说‘清华系’,我就感觉

自从

11-19 97阅读
一单只挣几块钱,年轻人追捧的代炒是门好生意吗?

一单只挣几块钱,年轻人追捧的代炒

杭州

11-19 118阅读
写意锦官城(写意锦官城)

写意锦官城(写意锦官城)

写意锦官城 作者:解朝侠 一直

11-19 98阅读
刘学义吴谨言新剧《春花厌》官宣,原著小说三观炸裂超虐

刘学义吴谨言新剧《春花厌

此前有消息传小说《春花厌》影视

11-19 111阅读
中国世界电影学会|2024·法国优秀影片展映圆满落幕

中国世界电影学会|2024·法

  由中国世界电影学会、中国文联电

11-19 102阅读
2024东方卫视跨年首发阵容,胡歌唐嫣代表《繁花》剧组亮相

2024东方卫视跨年首发阵容

12月25日,2024东方卫视跨年首发阵

11-19 102阅读
我们都在等待,等待钟声响起的那一刻。那是我生命最后的一刻,那也是最好的时刻

我们都在等待,等待钟声响起

  一段民族不可遗忘的历史,一个隐蔽

11-19 103阅读
和平精英跳伞怎么快速落地?和平精英跳伞技巧

和平精英跳伞怎么快速落地

《和平精英》游戏中玩家将通过跳伞进入

11-19 127阅读
原子之心电脉冲枪怎么用?原子之心电脉冲枪用不了的解决办法

原子之心电脉冲枪怎么用?

原子之心电脉冲枪怎么用?电脉冲枪是原子

11-19 113阅读
原子之心所有会说话的动物尸体所在位置分享

原子之心所有会说话的动物

在原子之心游戏里面,玩家可以通过找到所

11-19 104阅读
原子之心能量不回复怎么办?原子之心恢复能量的方法分享

原子之心能量不回复怎么办

原子之心能量不回复怎么办?原子之心游戏

11-19 131阅读
功耗低+性能强 双十一AMD锐龙9000处理器省钱游戏套装推荐

功耗低+性能强 双十一AMD

11-19 120阅读