Meta高管澄清:新AI模型Llama 4训练“作弊”传言不属实

4个月前 科技 25观看
摘要 4 月 8 日消息,Meta 公司的一位高管出面澄清了一则关于公司新 AI 模型的不实传言。该传言声称 Meta 在其新推出的 Llama 4 Maverick 和 Llama 4 Scout 模型上存在不当行为,即通过在特定基准测

4 月 8 日消息,Meta 公司的一位高管出面澄清了一则关于公司新 AI 模型的不实传言。该传言声称 Meta 在其新推出的 Llama 4 Maverick 和 Llama 4 Scout 模型上存在不当行为,即通过在特定基准测试的“测试集”上进行训练来提升模型的测试表现,同时隐藏模型的不足之处。IE0喜好网-记录每日喜好的科技时尚娱乐生活

IE0喜好网-记录每日喜好的科技时尚娱乐生活

Meta 公司生成式人工智能副总裁艾哈迈德・阿尔・达赫勒(Ahmad Al-Dahle)在社交平台 X 上发表声明称,这种说法“根本不属实”。IE0喜好网-记录每日喜好的科技时尚娱乐生活

在人工智能领域,测试集是用于在模型训练完成后评估其性能的数据集合。如果在测试集上进行训练,可能会人为地提高模型的基准测试分数,从而使模型看起来比实际更强大。IE0喜好网-记录每日喜好的科技时尚娱乐生活

IE0喜好网-记录每日喜好的科技时尚娱乐生活

值得一提的是,Maverick 和 Scout 在某些任务上的表现不佳,以及 Meta 选择使用未发布的实验版本 Maverick 来在基准测试平台 LM Arena 上获得更好成绩的决定,都为这一谣言提供了“燃料”。研究人员观察到,可公开下载的 Maverick 与在 LM Arena 上托管的模型在行为上存在显著差异。IE0喜好网-记录每日喜好的科技时尚娱乐生活

阿尔・达赫勒承认,部分用户在使用不同云服务提供商提供的 Maverick 和 Scout 模型时,确实遇到了“质量参差不齐”的情况。他解释道:“由于我们在模型准备好后就立即发布了,我们预计需要几天时间才能让所有公开的实现版本都调整到位。我们将继续进行错误修复并与合作伙伴进行对接。”IE0喜好网-记录每日喜好的科技时尚娱乐生活

【来源:IT之家IE0喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
广汽传祺S7大五座SUV全球首秀,预计明年上半年上市

广汽传祺S7大五座SUV全球首秀,预

11-19 129阅读
孙正义黄仁勋互曝往事:差点买下英伟达,错失两千亿美元

孙正义黄仁勋互曝往事:差点买下英

孙正

11-19 110阅读
焦虑的开发者,涌向“纯血鸿蒙”培训班

焦虑的开发者,涌向“纯血鸿蒙”培

有两

11-19 103阅读
川普赢了,马斯克能当上 AI 部部长吗?

川普赢了,马斯克能当上 AI 部部长

图片来源:由无界AI生成2018 年,扎

11-19 112阅读
OpenAI“杀死”在线教育巨头

OpenAI“杀死”在线教育巨头

文章来源:智东西图片来源:由无界AI

11-19 141阅读
Netflix,振奋时刻下的暗潮

Netflix,振奋时刻下的暗潮

作者 / 向   向运营 / 狮子座和202

11-19 108阅读
百部青少年教育公益微电影《星光好少年之少年王维》开机仪式在北京顺利举行

百部青少年教育公益微电影

  2024年11月9日,由泰安东升公益慈

11-19 104阅读
张云龙秀恩爱庞博秀学历,《我的主场》主打一个凡尔赛

张云龙秀恩爱庞博秀学历,《

  年末最热血的一档综艺终于在爱奇

11-19 123阅读
炒股4年赚5千万的上海00后火了:我最近亏麻 舆论已影响自己生活

炒股4年赚5千万的上海00后

11月14日消息,近

11-19 104阅读
《猫眼三姐妹》动画将重制!童年三女神高清归来!

《猫眼三姐妹》动画将重制

近日有报道称,北

11-19 108阅读
《星刃》开发商否认《胜利女神》将改编动画的传言

《星刃》开发商否认《胜利

《星刃》对于开发商Shift Up而言是一

11-19 124阅读
三国群英传2秘籍大全_三国群英传2秘籍代码一览

三国群英传2秘籍大全_三国

相信熟悉三国群英传系列游戏的朋友都不

11-19 137阅读
饥荒无消耗驯服猪人的详细操作方法

饥荒无消耗驯服猪人的详细

猪人是饥荒游戏里面的特殊生物,因为数量

11-19 116阅读
原神终将到来的花神诞祭任务流程|终将到来的花神诞祭任务攻略

原神终将到来的花神诞祭任

终将到来的花神诞祭是原神须弥地区魔神

11-19 158阅读
饥荒体温过高怎么办?饥荒所有降低体温的方法分享

饥荒体温过高怎么办?饥荒

饥荒体温过高怎么办?饥荒游戏里面拥有体

11-19 113阅读