浙大上海AI Lab发布全球首个创造力评测基准:GPT-4.5创造力不及GPT-4O,真实场景下的创造力较量揭晓

1个月前 科技 7观看
摘要 探索多模态创造力:GPT-4.5与视觉创造力基准的较量随着GPT-4.5在语言生成能力上的显著提升,其创造力也引发了广泛关注。然而,当我们将其应用于真实场景的多模态任务时,我们发现其表现可能并未达到预期。近日,浙

探索多模态创造力:GPT-4.5与视觉创造力基准的较量dOn喜好网-记录每日喜好的科技时尚娱乐生活

随着GPT-4.5在语言生成能力上的显著提升,其创造力也引发了广泛关注。然而,当我们将其应用于真实场景的多模态任务时,我们发现其表现可能并未达到预期。近日,浙江大学联合上海人工智能实验室等团队发布的全球首个多模态创造力评测基准,为我们揭示了多模态大模型在现实场景中的创造力较量。dOn喜好网-记录每日喜好的科技时尚娱乐生活

首先,我们需要理解什么是多模态创造力。在人工智能的“智力三元论”中,创造性智能(Creative Intelligence)始终是最难评估和攻克的一环。它涉及在不同背景下生成新颖和适当解决方案的能力,这正是多模态大模型在现实场景中展现出创造力的关键。dOn喜好网-记录每日喜好的科技时尚娱乐生活

现有的多模态大模型评测基准,如MMBench、MMMU等,往往更偏重于分析性或实用性任务,而忽略了多模态AI在真实生活中常见的“创意类任务”。然而,这些任务对于人类来说是驾轻就熟的,但对于现有的部分多模态大模型却往往是“高难动作”。这正是浙江大学联合团队发布的全球首个多模态创造力评测基准——Creation-MMBench所要解决的问题。dOn喜好网-记录每日喜好的科技时尚娱乐生活

在深度探讨Creation-MMBench之前,我们需要了解为何我们要关注视觉创造智能。在人工智能的智力体系中,视觉智能是理解世界的重要一环。在创造性智能中,视觉内容理解与情境适应的能力尤为重要。相较于其他广泛使用的多模态评测基准,Creation-MMBench具有更全面和复杂的问题设计,大多数问题的长度超过500个词元,这有助于模型捕捉更丰富的创意上下文。dOn喜好网-记录每日喜好的科技时尚娱乐生活

Creation-MMBench的核心在于真实场景的多模态融合。它涵盖了四大任务类别、51项细粒度任务,用765个高难度测试案例,为多模态大模型的“视觉创意智能”提供全方位体检。其中,任务类别包括文学创作、日常功能性写作、专业功能性写作以及多模态理解与创作。这些任务需要模型具备视觉内容理解、情境适应以及创意性文本生成等多重能力,这是现有基准难以评估的核心能力。dOn喜好网-记录每日喜好的科技时尚娱乐生活

为了确保评判的公正性和一致性,团队使用了GPT-4O作为评判模型,并采用了双重评估体系。他们选择了使用多模态大模型作为评判模型,同时使用两个不同指标进行双重评估。这包括视觉事实性评分(VFS)和创意奖励分(Reward)。视觉事实性评分确保模型不是“瞎编”,而创意奖励分则考察模型是否能够结合视觉内容生成有创意的文本。dOn喜好网-记录每日喜好的科技时尚娱乐生活

为了验证评判模型的可靠性,团队还招募了志愿者对13%的样本进行人工评估。结果显示,GPT-4O展现出了更强的人类偏好一致性,同时也证明了双向评判的必要性。这表明传统的客观指标可能无法完全捕捉模型在复杂现实场景中的创造能力,而Creation-MMBench填补了这一领域的重要性。dOn喜好网-记录每日喜好的科技时尚娱乐生活

值得注意的是,GPT-4.5在语言生成能力上的提升并未带来其在多模态创造力上的显著提升。在与全球首个多模态创造力评测基准Creation-MMBench的对比实验中,GPT-4.5在某些任务上的表现甚至不及GPT-4O。这让我们重新思考GPT-4.5的真正潜力以及多模态创造力评测的重要性。dOn喜好网-记录每日喜好的科技时尚娱乐生活

总的来说,Creation-MMBench作为一个新颖的基准,旨在评估多模态大模型在现实场景中的创造能力。该基准包含765个实例,涵盖51个详细任务,为多模态大模型的创造力提供了全方位的评估。尽管GPT-4.5在语言生成能力上有所提升,但在真实场景中的多模态创造力较量中,我们仍需借助像Creation-MMBench这样的评测基准来揭示其真实能力。dOn喜好网-记录每日喜好的科技时尚娱乐生活

希望这篇文章符合您的要求,如果您还有其他问题,欢迎随时向我提问。dOn喜好网-记录每日喜好的科技时尚娱乐生活

dOn喜好网-记录每日喜好的科技时尚娱乐生活

dOn喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
日本导演神山健治执导 动画电影《指环王:洛汗之战》内地定档12月14日

日本导演神山健治执导 动画电影

11月19日

11-19 62阅读
摸着Meta过河,百度再战AI眼镜

摸着Meta过河,百度再战AI眼镜

“Goo

11-19 64阅读
“知春路时代”的创业者,被回购条款绊了一跤

“知春路时代”的创业者,被回购条

这次

11-19 68阅读
可栗口语完成数百万元天使轮融资

可栗口语完成数百万元天使轮融资

近日,A

11-19 60阅读
刚刚,OpenAI发布Windows版ChatGPT,高级语音能用了

刚刚,OpenAI发布Windows版ChatGPT

图片来源:由无界AI生成今天凌晨2

11-19 66阅读
让赵露思摇来肖战鹿晗打call的《珠帘玉幕》,好看不?|Talk剧评

让赵露思摇来肖战鹿晗打ca

作者 / 张   特编辑 / 阿   笔运

11-19 67阅读
《扫黑风暴》郑毅红结局是什么?她最后有没有落网?

《扫黑风暴》郑毅红结局是

电视剧《扫黑风暴》郑毅红结局是

11-19 61阅读
VaVa毛衍七主理女子嘻哈厂牌Herstory Gals首支Cypher《Herstory》上线

VaVa毛衍七主理女子嘻哈厂

  10月29日,由种梦音乐D.M.G艺人Va

11-19 65阅读
消失三年 复出还是顶流!李子柒为何无法替代

消失三年 复出还是顶流!李

停更三年后,昨日,

11-19 68阅读
童年女神归来!《猫眼三姐妹》动画将迎来重制

童年女神归来!《猫眼三姐妹

根据海外情报师

11-19 60阅读
万代魂系高端钢普拉大展 解体匠机第三弹高达Mk-II再参展

万代魂系高端钢普拉大展

万代高端模玩魂系列展会《TAMASHII NA

11-19 67阅读
和平精英灵敏度怎么调最稳?和平精英灵敏度设置2024最新版

和平精英灵敏度怎么调最稳

《和平精英》是一款全民枪战竞技手游,采

11-19 92阅读
保卫萝卜4太空穿越4关通关攻略

保卫萝卜4太空穿越4关通关

保卫萝卜4是最新发布的游戏,相信喜欢保

11-19 64阅读
卧龙苍天陨落全章节龙脉晶石所在位置详细介绍

卧龙苍天陨落全章节龙脉晶

龙脉晶石是卧龙苍天陨落游戏里面的特殊

11-19 66阅读
原神沙脂蛹怎么获得?原神沙脂蛹采集地点一览

原神沙脂蛹怎么获得?原神

沙脂蛹是原神游戏中须弥地区的特产之一

11-19 64阅读