浙大上海AI Lab发布全球首个创造力评测基准:GPT-4.5创造力不及GPT-4O,真实场景下的创造力较量揭晓

4个月前 科技 23观看
摘要 探索多模态创造力:GPT-4.5与视觉创造力基准的较量随着GPT-4.5在语言生成能力上的显著提升,其创造力也引发了广泛关注。然而,当我们将其应用于真实场景的多模态任务时,我们发现其表现可能并未达到预期。近日,浙

探索多模态创造力:GPT-4.5与视觉创造力基准的较量e2h喜好网-记录每日喜好的科技时尚娱乐生活

随着GPT-4.5在语言生成能力上的显著提升,其创造力也引发了广泛关注。然而,当我们将其应用于真实场景的多模态任务时,我们发现其表现可能并未达到预期。近日,浙江大学联合上海人工智能实验室等团队发布的全球首个多模态创造力评测基准,为我们揭示了多模态大模型在现实场景中的创造力较量。e2h喜好网-记录每日喜好的科技时尚娱乐生活

首先,我们需要理解什么是多模态创造力。在人工智能的“智力三元论”中,创造性智能(Creative Intelligence)始终是最难评估和攻克的一环。它涉及在不同背景下生成新颖和适当解决方案的能力,这正是多模态大模型在现实场景中展现出创造力的关键。e2h喜好网-记录每日喜好的科技时尚娱乐生活

现有的多模态大模型评测基准,如MMBench、MMMU等,往往更偏重于分析性或实用性任务,而忽略了多模态AI在真实生活中常见的“创意类任务”。然而,这些任务对于人类来说是驾轻就熟的,但对于现有的部分多模态大模型却往往是“高难动作”。这正是浙江大学联合团队发布的全球首个多模态创造力评测基准——Creation-MMBench所要解决的问题。e2h喜好网-记录每日喜好的科技时尚娱乐生活

在深度探讨Creation-MMBench之前,我们需要了解为何我们要关注视觉创造智能。在人工智能的智力体系中,视觉智能是理解世界的重要一环。在创造性智能中,视觉内容理解与情境适应的能力尤为重要。相较于其他广泛使用的多模态评测基准,Creation-MMBench具有更全面和复杂的问题设计,大多数问题的长度超过500个词元,这有助于模型捕捉更丰富的创意上下文。e2h喜好网-记录每日喜好的科技时尚娱乐生活

Creation-MMBench的核心在于真实场景的多模态融合。它涵盖了四大任务类别、51项细粒度任务,用765个高难度测试案例,为多模态大模型的“视觉创意智能”提供全方位体检。其中,任务类别包括文学创作、日常功能性写作、专业功能性写作以及多模态理解与创作。这些任务需要模型具备视觉内容理解、情境适应以及创意性文本生成等多重能力,这是现有基准难以评估的核心能力。e2h喜好网-记录每日喜好的科技时尚娱乐生活

为了确保评判的公正性和一致性,团队使用了GPT-4O作为评判模型,并采用了双重评估体系。他们选择了使用多模态大模型作为评判模型,同时使用两个不同指标进行双重评估。这包括视觉事实性评分(VFS)和创意奖励分(Reward)。视觉事实性评分确保模型不是“瞎编”,而创意奖励分则考察模型是否能够结合视觉内容生成有创意的文本。e2h喜好网-记录每日喜好的科技时尚娱乐生活

为了验证评判模型的可靠性,团队还招募了志愿者对13%的样本进行人工评估。结果显示,GPT-4O展现出了更强的人类偏好一致性,同时也证明了双向评判的必要性。这表明传统的客观指标可能无法完全捕捉模型在复杂现实场景中的创造能力,而Creation-MMBench填补了这一领域的重要性。e2h喜好网-记录每日喜好的科技时尚娱乐生活

值得注意的是,GPT-4.5在语言生成能力上的提升并未带来其在多模态创造力上的显著提升。在与全球首个多模态创造力评测基准Creation-MMBench的对比实验中,GPT-4.5在某些任务上的表现甚至不及GPT-4O。这让我们重新思考GPT-4.5的真正潜力以及多模态创造力评测的重要性。e2h喜好网-记录每日喜好的科技时尚娱乐生活

总的来说,Creation-MMBench作为一个新颖的基准,旨在评估多模态大模型在现实场景中的创造能力。该基准包含765个实例,涵盖51个详细任务,为多模态大模型的创造力提供了全方位的评估。尽管GPT-4.5在语言生成能力上有所提升,但在真实场景中的多模态创造力较量中,我们仍需借助像Creation-MMBench这样的评测基准来揭示其真实能力。e2h喜好网-记录每日喜好的科技时尚娱乐生活

希望这篇文章符合您的要求,如果您还有其他问题,欢迎随时向我提问。e2h喜好网-记录每日喜好的科技时尚娱乐生活

e2h喜好网-记录每日喜好的科技时尚娱乐生活

e2h喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
消息称抖音正推进“V”项目,包括直播游戏互动、AI 分身功能等

消息称抖音正推进“V”项目,包括

11 月

11-19 112阅读
‌星途星纪元E08预告图发布:奇瑞进军豪华MPV市场首款车型‌

‌星途星纪元E08预告图发布:奇瑞

11-19 98阅读
孙正义黄仁勋互曝往事:差点买下英伟达,错失两千亿美元

孙正义黄仁勋互曝往事:差点买下英

孙正

11-19 110阅读
1.4万亿元,最长双11收官,五大电商平台幕后操盘手均为女高管

1.4万亿元,最长双11收官,五大电商

又一

11-19 126阅读
这个东北小镇,拿捏年轻人的第一件貂

这个东北小镇,拿捏年轻人的第一件

你会

11-19 127阅读
6年前,主持实习生弦子,为何诬告朱军性骚扰?如今她又怎样了?

6年前,主持实习生弦子,为何

11-19 106阅读
央视剧评|《西北岁月》:书写西北革命史的壮丽篇章

央视剧评|《西北岁月》:书写

  正在总台央视综合频道(CCTV-1)黄金

11-19 114阅读
《我的主场》“篮”大凌晨五点魔鬼拉练 宏远主场喜提冠军大师课

《我的主场》“篮”大凌晨

  如果用运动定义青春,那么篮球必定

11-19 122阅读
“重温经典”电视频道火爆:超6000万户 稳居收视率首位

“重温经典”电视频道火爆

11月18日消息,根

11-19 105阅读
帝国时代3亚洲王朝秘籍_帝国时代3秘籍大全

帝国时代3亚洲王朝秘籍_帝

帝国时代3亚洲王朝(Age of Empires III:

11-19 131阅读
在360安装目录创建exe文件提示目标文件夹访问被拒绝的解决方法

在360安装目录创建exe文件

最近有网友反映,自己想要在360安全卫士

11-19 160阅读
饥荒超详细驯服牦牛技巧分享

饥荒超详细驯服牦牛技巧分

在饥荒游戏里面玩家可以驯服牦牛,而且根

11-19 114阅读
饥荒暖石制作方法详细介绍

饥荒暖石制作方法详细介绍

暖石是饥荒游戏里面的一个特殊道具,可以

11-19 186阅读