大模型是色盲吗?

6个月前 科技 33观看
摘要文章来源:赛博禅心图片来源:由无界AI生成先说结论:多数模型,是色盲人的绝大多数信息,来源于视觉输入。我们用眼睛去看朝阳,看皎月,看大漠孤烟,看碧海雄关。那么,当我们拍下美景,来和大模型去讨论的时候:大模型看到的,和我们一样吗

文章来源:赛博禅心jec喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

先说结论:jec喜好网-记录每日喜好的科技时尚娱乐生活

多数模型,是色盲jec喜好网-记录每日喜好的科技时尚娱乐生活

人的绝大多数信息,来源于视觉输入。jec喜好网-记录每日喜好的科技时尚娱乐生活

我们用眼睛去看朝阳,看皎月,看大漠孤烟,看碧海雄关。那么,当我们拍下美景,来和大模型去讨论的时候:大模型看到的,和我们一样吗?jec喜好网-记录每日喜好的科技时尚娱乐生活

或许,大模型看到的,和我们,并不一样。jec喜好网-记录每日喜好的科技时尚娱乐生活

于是就有了这个测试:大模型是色盲吗?jec喜好网-记录每日喜好的科技时尚娱乐生活

做体检的时候,大夫可能会拿出几张图,问你是什么数字,就像下面这种jec喜好网-记录每日喜好的科技时尚娱乐生活

这是石原氏色盲检测图,由多种颜色的圆点组成多个数字:色觉正常者可以正确区分,而色盲患者则会判断错误。jec喜好网-记录每日喜好的科技时尚娱乐生活

那么,当我们把这些测试图给到 AI,让他来看看。这里取了两张最经典的:一个是色盲看不出来数字(红绿色盲读错),一个是只有色盲才能看出来数字。jec喜好网-记录每日喜好的科技时尚娱乐生活

测试 Ajec喜好网-记录每日喜好的科技时尚娱乐生活

正常读数:74jec喜好网-记录每日喜好的科技时尚娱乐生活

红绿色盲:21jec喜好网-记录每日喜好的科技时尚娱乐生活

测试 Bjec喜好网-记录每日喜好的科技时尚娱乐生活

正常读数:无数字jec喜好网-记录每日喜好的科技时尚娱乐生活

红绿色盲:5jec喜好网-记录每日喜好的科技时尚娱乐生活

被测试方,选了 4 家:jec喜好网-记录每日喜好的科技时尚娱乐生活

  • OpenAI 的 GPT-4o
  • Claude(Anthropic) 的 3.5 Sonnet,通过 Claude
  • Gemini(Google) 的 2.0 (exp-1206)
  • 智谱的 GLM-4

Prompt 统一使用:图里有数字吗?如果有的话,是什么?jec喜好网-记录每日喜好的科技时尚娱乐生活

 第一题 

正常读数:74;红绿色盲:21jec喜好网-记录每日喜好的科技时尚娱乐生活

ChatGPT 的 GPT-4o,回答正确jec喜好网-记录每日喜好的科技时尚娱乐生活

Claude 的 3.5 Sonnet,有些色盲jec喜好网-记录每日喜好的科技时尚娱乐生活

Gemini 的 2.0 (exp-1206),实锤红绿色盲jec喜好网-记录每日喜好的科技时尚娱乐生活

智谱 的 GLM-4,回答正确jec喜好网-记录每日喜好的科技时尚娱乐生活

小结:OpenAI 和智谱的模型,在这个测试中,色觉正常。Gemini 是红绿色盲,Claude 不知道是什么色盲jec喜好网-记录每日喜好的科技时尚娱乐生活

 第二题 

正常读数:无数字;红绿色盲:5jec喜好网-记录每日喜好的科技时尚娱乐生活

ChatGPT 的 GPT-4o,回答出了一个 5,鉴定为半色盲jec喜好网-记录每日喜好的科技时尚娱乐生活

Claude 的 3.5 Sonnet,回答出了一个 5,鉴定为半色盲jec喜好网-记录每日喜好的科技时尚娱乐生活

Gemini 的 2.0 (exp-1206),啥也不是jec喜好网-记录每日喜好的科技时尚娱乐生活

智谱 的 GLM-4,回答正确jec喜好网-记录每日喜好的科技时尚娱乐生活

小结:在这个测试中,只有 GLM-4 回答正确。jec喜好网-记录每日喜好的科技时尚娱乐生活

得出结论

先说结论:基于上面的色盲样本测试,智谱在视觉理解上比大多数模型都强。jec喜好网-记录每日喜好的科技时尚娱乐生活

OpenAIjec喜好网-记录每日喜好的科技时尚娱乐生活

Claudejec喜好网-记录每日喜好的科技时尚娱乐生活

Geminijec喜好网-记录每日喜好的科技时尚娱乐生活

智谱测试 A✅jec喜好网-记录每日喜好的科技时尚娱乐生活

❌❌✅测试 Bjec喜好网-记录每日喜好的科技时尚娱乐生活

❌❌❌✅jec喜好网-记录每日喜好的科技时尚娱乐生活

难怪获得了白宫恐慌认证:《智谱:关于被美国商务部列入实体清单的声明jec喜好网-记录每日喜好的科技时尚娱乐生活

然后,智谱在进实体清单当天,硬刚了一个对标 GPT-4o 的 realtime API,赋能硬件嘴巴和眼睛,且是有两分钟的记忆能力、能唱歌的端到端模型,应是当下国内最强。jec喜好网-记录每日喜好的科技时尚娱乐生活

理解模型 GLM-4V-Plus 也进行了全面升级(网页上的 GLM-4 在读图的时候,也是基于这个),支持了变分辨率功能,更省 token!(例如,224 * 224的分辨率下,输入的图像token数仅为原来的3%),同时支持4K超清图像和极致长宽比图像的无损识别。jec喜好网-记录每日喜好的科技时尚娱乐生活

以及,其视频理解模型更新,支持 2 个小时的内容了:《智谱Realtime、4V、Air新模型发布,上线bigmodel.cnjec喜好网-记录每日喜好的科技时尚娱乐生活

当然,从开发者的角度,最值得吹嘘的还得是以下 4 种模型全免费:jec喜好网-记录每日喜好的科技时尚娱乐生活

  • 语言模型 GLM-4-Flash
  • 图像理解模型 GLM-4V-Flash
  • 图像生成模型 CogView-3-Flash
  • 视频生成模型 CogVideoX-Flash

在最后还得说,这个测试一点都不严谨,而且我们也应知道,模型和人看图的原理,就是不同,但很有意思:只有大模型对世界的观察,和我们一样,才能更好的服务于我们。jec喜好网-记录每日喜好的科技时尚娱乐生活

以及... 国内其他几家我也测了,结果并不理想。如果想知道结论,可拿文章里的图自来测,然后发到评论区。jec喜好网-记录每日喜好的科技时尚娱乐生活

大模型
展开全文
猜你感兴趣
小米第三季度研发费用60亿 雷军:小米坚持技术为本的铁律

小米第三季度研发费用60亿 雷军:

11月19日

11-19 127阅读
GOG 商店确保经典游戏长期兼容,首批 100 款上线

GOG 商店确保经典游戏长期兼容,首

11-19 135阅读
大模型公司们创业未半,技术主心骨们却先弃船回大厂了?

大模型公司们创业未半,技术主心骨

2024

11-19 115阅读
徐工集团CVC基金备案成功

徐工集团CVC基金备案成功

2024

11-19 113阅读
刚刚,OpenAI发布Windows版ChatGPT,高级语音能用了

刚刚,OpenAI发布Windows版ChatGPT

图片来源:由无界AI生成今天凌晨2

11-19 125阅读
斗鱼第一土豪落天神身份曝光, 花钱如流水居然是这样的身份!

斗鱼第一土豪落天神身份曝

如果很早就看直播的网友,想必都听

11-19 102阅读
要回归了?李奈映透露丈夫元斌正在选剧本 有望复出拍戏

要回归了?李奈映透露丈夫元

47岁韩国男星元斌,凭着帅气

11-19 104阅读
肖战演郭靖!新《射雕》能复兴徐克的武侠梦吗 网友:肩负文化出海重任

肖战演郭靖!新《射雕》能复

11月18日消息,由

11-19 105阅读
金角大王与银角大王可动人偶开启预定:超逼真还原童年记忆

金角大王与银角大王可动人

近日haoyutoys官

11-19 111阅读
《优米雅的鍊金工房》第二波情报,新宣传片公开

《优米雅的鍊金工房》第二

活着, 就会不断地累积记忆。这是她在灭

11-19 109阅读
《Amerzone:探险家的记忆传承》跳票至明年第二季度

《Amerzone:探险家的记忆传

Microids已将重制版游戏《Amerzone:探

11-19 137阅读
原子之心全部圆盘锁开锁方法详细介绍

原子之心全部圆盘锁开锁方

圆盘锁是原子之心游戏里面的一种特殊加

11-19 109阅读
原子之心所有会说话的动物尸体所在位置分享

原子之心所有会说话的动物

在原子之心游戏里面,玩家可以通过找到所

11-19 106阅读
原神漫长的重逢任务攻略|隐藏成就漫长的重逢任务解析

原神漫长的重逢任务攻略|

漫长的重逢是原神须弥地区的隐藏任务之

11-19 113阅读