AI历史题准确率低至46%:GPT-4 Turbo 何以应对高级难题?

7个月前 科技 38观看
摘要 AI历史题准确率低至46%:GPT-4 Turbo何以应对高级难题?人工智能(AI)在编码等任务中表现出色,但一项最新研究发现,AI在应对高级历史考试时仍显得力不从心。这项研究由奥地利复杂科学研究所(CSH)的团队主导,旨在测试

AI历史题准确率低至46%:GPT-4 Turbo何以应对高级难题?sGz喜好网-记录每日喜好的科技时尚娱乐生活

人工智能(AI)在编码等任务中表现出色,但一项最新研究发现,AI在应对高级历史考试时仍显得力不从心。这项研究由奥地利复杂科学研究所(CSH)的团队主导,旨在测试三大顶尖大型语言模型(LLMs)——OpenAI的GPT-4、Meta的Llama和谷歌的Gemini——在历史问题上的表现。尽管这些大型语言模型在处理基本事实方面表现出色,但在面对更复杂、博士级别的历史研究时,它们却无法胜任。sGz喜好网-记录每日喜好的科技时尚娱乐生活

研究结果于上月在知名AI会议NeurIPS上公布,结果显示,即使是表现最佳的GPT-4 Turbo模型,其准确率也仅为46%,并不比随机猜测高多少。这引发了我们对AI在历史研究中的应用的深思。sGz喜好网-记录每日喜好的科技时尚娱乐生活

首先,我们需要理解AI在处理历史问题时的局限性。这些大型语言模型倾向于从非常突出的历史数据中推断,而难以检索到更冷门的历史知识。当涉及到技术性历史问题时,例如古埃及某一特定时期是否存在鳞甲,它们可能会给出错误的答案,因为它们缺乏对那个时期的具体历史背景的了解。sGz喜好网-记录每日喜好的科技时尚娱乐生活

另一个例子是关于古埃及是否拥有职业常备军的询问。尽管OpenAI和Llama模型给出了错误的答案,但正确的答案确实是否定的。这可能是因为这些模型更多地学习了其他古代帝国拥有常备军的公开信息,而忽视了古埃及的相关信息。这种情况可能反映了模型训练数据的不完全或不准确,也可能是因为模型的设计并没有考虑到特定历史背景的影响。sGz喜好网-记录每日喜好的科技时尚娱乐生活

然而,我们也应该看到AI在历史研究中的潜力。研究人员正在通过纳入更多来自代表性不足地区的数据和增加更复杂的问题来改进基准测试工具。这表明,随着AI技术的发展,我们有望看到更多的历史研究工作被自动化,这将大大提高研究效率。sGz喜好网-记录每日喜好的科技时尚娱乐生活

尽管如此,我们仍需要认识到AI在历史研究中的局限性。在某些领域,如撒哈拉以南非洲等地区,这些模型的表现可能仍然较差,这可能是因为这些地区的训练数据可能存在偏见。因此,我们需要更加谨慎地使用这些模型,并确保它们能够反映所有历史研究领域的复杂性。sGz喜好网-记录每日喜好的科技时尚娱乐生活

总的来说,虽然我们的结果突显了大型语言模型需要改进的领域,但它们也强调了这些模型在历史研究中的潜力。随着技术的进步和研究的深入,我们有望看到AI在历史研究中的应用越来越广泛,同时我们也应该注意到其局限性,并努力改进和完善这些模型,使其更好地服务于历史研究工作。sGz喜好网-记录每日喜好的科技时尚娱乐生活

在这个过程中,我们也需要保持审慎和客观的态度。虽然AI在某些方面可能无法取代人类的历史专家,但它们可以作为人类助手和工具,帮助我们更高效地处理历史数据和信息。因此,我们应该积极探索AI在历史研究中的应用,同时也要保持对它们的合理限制和监管,以确保其应用符合伦理和道德标准。sGz喜好网-记录每日喜好的科技时尚娱乐生活

sGz喜好网-记录每日喜好的科技时尚娱乐生活

sGz喜好网-记录每日喜好的科技时尚娱乐生活

sGz喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
蘸拖鞋都好吃!六婆辣椒面官方狂促速囤:40包6.9元

蘸拖鞋都好吃!六婆辣椒面官方狂促

天猫【六

11-19 130阅读
小鹏汇天“陆地航母”2024 广州车展完成全球公开载人首飞

小鹏汇天“陆地航母”2024 广州

11-19 118阅读
奇瑞劲云概念车实拍图发布,将亮相广州车展,支持特殊驾驶模式

奇瑞劲云概念车实拍图发布,将亮相

11-19 103阅读
撑起“北方第二城”,凭什么是它?

撑起“北方第二城”,凭什么是它?

全国

11-19 120阅读
腾讯的AI困局

腾讯的AI困局

文章来源:科技新知图片来源:由无界

11-19 124阅读
金鸡奖这一夜,人情冷暖、江湖职位,在王骁身上体现得极尽描摹

金鸡奖这一夜,人情冷暖、江

11-19 111阅读
安倍遇刺事件的态度问题(安倍遇刺事件的态度问题)

安倍遇刺事件的态度问题(安

安倍遇刺事件的态度问题 刘明

11-19 112阅读
赵昭仪的男朋友是谁? 揭秘二人关系不简单!

赵昭仪的男朋友是谁? 揭秘

甜甜的恋爱剧成了影视圈之中的主

11-19 128阅读
ENHYPEN的第二张正规专辑后续《ROMANCE:UNTOLD-daydream-》刷新了历代K-POP后续专辑中创下了最高初动销量新纪录

ENHYPEN的第二张正规专辑

18日,据Hanteo Chart榜单数

11-19 104阅读
网络电影《浴血无名·奔袭》入选“五个一工程” 海空雄鹰文化传媒再创主旋律佳作

网络电影《浴血无名·奔袭

  11月18日,中共中央宣传部公布第十

11-19 100阅读
《啪嗒砰》精神续作《Ratatan》新预告片分享

《啪嗒砰》精神续作《Rata

Game Source Entertainment 宣布与开

11-19 133阅读
元气骑士前传兑换码2024_元气骑士前传新手礼包码

元气骑士前传兑换码2024_

最近元气骑士前传这款游戏十分火爆,那么

11-19 114阅读
卧龙苍天陨落武将韩当解锁方法详细介绍

卧龙苍天陨落武将韩当解锁

韩当是三国历史上孙吴阵营的名将,在卧龙

11-19 117阅读
界面设计全面升级 NVIDIA app实际体验:五大靓点堪称N卡必备搭档

界面设计全面升级 NVIDIA

11-19 119阅读
饥荒通过卡猪人快速回复san值的详细操作方法

饥荒通过卡猪人快速回复sa

饥荒游戏里面玩家经常会面对san值不足

11-19 136阅读