大模型是色盲吗?

3个月前 科技 18观看
摘要文章来源:赛博禅心图片来源:由无界AI生成先说结论:多数模型,是色盲人的绝大多数信息,来源于视觉输入。我们用眼睛去看朝阳,看皎月,看大漠孤烟,看碧海雄关。那么,当我们拍下美景,来和大模型去讨论的时候:大模型看到的,和我们一样吗

文章来源:赛博禅心11G喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

先说结论:11G喜好网-记录每日喜好的科技时尚娱乐生活

多数模型,是色盲11G喜好网-记录每日喜好的科技时尚娱乐生活

人的绝大多数信息,来源于视觉输入。11G喜好网-记录每日喜好的科技时尚娱乐生活

我们用眼睛去看朝阳,看皎月,看大漠孤烟,看碧海雄关。那么,当我们拍下美景,来和大模型去讨论的时候:大模型看到的,和我们一样吗?11G喜好网-记录每日喜好的科技时尚娱乐生活

或许,大模型看到的,和我们,并不一样。11G喜好网-记录每日喜好的科技时尚娱乐生活

于是就有了这个测试:大模型是色盲吗?11G喜好网-记录每日喜好的科技时尚娱乐生活

做体检的时候,大夫可能会拿出几张图,问你是什么数字,就像下面这种11G喜好网-记录每日喜好的科技时尚娱乐生活

这是石原氏色盲检测图,由多种颜色的圆点组成多个数字:色觉正常者可以正确区分,而色盲患者则会判断错误。11G喜好网-记录每日喜好的科技时尚娱乐生活

那么,当我们把这些测试图给到 AI,让他来看看。这里取了两张最经典的:一个是色盲看不出来数字(红绿色盲读错),一个是只有色盲才能看出来数字。11G喜好网-记录每日喜好的科技时尚娱乐生活

测试 A11G喜好网-记录每日喜好的科技时尚娱乐生活

正常读数:7411G喜好网-记录每日喜好的科技时尚娱乐生活

红绿色盲:2111G喜好网-记录每日喜好的科技时尚娱乐生活

测试 B11G喜好网-记录每日喜好的科技时尚娱乐生活

正常读数:无数字11G喜好网-记录每日喜好的科技时尚娱乐生活

红绿色盲:511G喜好网-记录每日喜好的科技时尚娱乐生活

被测试方,选了 4 家:11G喜好网-记录每日喜好的科技时尚娱乐生活

  • OpenAI 的 GPT-4o
  • Claude(Anthropic) 的 3.5 Sonnet,通过 Claude
  • Gemini(Google) 的 2.0 (exp-1206)
  • 智谱的 GLM-4

Prompt 统一使用:图里有数字吗?如果有的话,是什么?11G喜好网-记录每日喜好的科技时尚娱乐生活

 第一题 

正常读数:74;红绿色盲:2111G喜好网-记录每日喜好的科技时尚娱乐生活

ChatGPT 的 GPT-4o,回答正确11G喜好网-记录每日喜好的科技时尚娱乐生活

Claude 的 3.5 Sonnet,有些色盲11G喜好网-记录每日喜好的科技时尚娱乐生活

Gemini 的 2.0 (exp-1206),实锤红绿色盲11G喜好网-记录每日喜好的科技时尚娱乐生活

智谱 的 GLM-4,回答正确11G喜好网-记录每日喜好的科技时尚娱乐生活

小结:OpenAI 和智谱的模型,在这个测试中,色觉正常。Gemini 是红绿色盲,Claude 不知道是什么色盲11G喜好网-记录每日喜好的科技时尚娱乐生活

 第二题 

正常读数:无数字;红绿色盲:511G喜好网-记录每日喜好的科技时尚娱乐生活

ChatGPT 的 GPT-4o,回答出了一个 5,鉴定为半色盲11G喜好网-记录每日喜好的科技时尚娱乐生活

Claude 的 3.5 Sonnet,回答出了一个 5,鉴定为半色盲11G喜好网-记录每日喜好的科技时尚娱乐生活

Gemini 的 2.0 (exp-1206),啥也不是11G喜好网-记录每日喜好的科技时尚娱乐生活

智谱 的 GLM-4,回答正确11G喜好网-记录每日喜好的科技时尚娱乐生活

小结:在这个测试中,只有 GLM-4 回答正确。11G喜好网-记录每日喜好的科技时尚娱乐生活

得出结论

先说结论:基于上面的色盲样本测试,智谱在视觉理解上比大多数模型都强。11G喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI11G喜好网-记录每日喜好的科技时尚娱乐生活

Claude11G喜好网-记录每日喜好的科技时尚娱乐生活

Gemini11G喜好网-记录每日喜好的科技时尚娱乐生活

智谱测试 A✅11G喜好网-记录每日喜好的科技时尚娱乐生活

❌❌✅测试 B11G喜好网-记录每日喜好的科技时尚娱乐生活

❌❌❌✅11G喜好网-记录每日喜好的科技时尚娱乐生活

难怪获得了白宫恐慌认证:《智谱:关于被美国商务部列入实体清单的声明11G喜好网-记录每日喜好的科技时尚娱乐生活

然后,智谱在进实体清单当天,硬刚了一个对标 GPT-4o 的 realtime API,赋能硬件嘴巴和眼睛,且是有两分钟的记忆能力、能唱歌的端到端模型,应是当下国内最强。11G喜好网-记录每日喜好的科技时尚娱乐生活

理解模型 GLM-4V-Plus 也进行了全面升级(网页上的 GLM-4 在读图的时候,也是基于这个),支持了变分辨率功能,更省 token!(例如,224 * 224的分辨率下,输入的图像token数仅为原来的3%),同时支持4K超清图像和极致长宽比图像的无损识别。11G喜好网-记录每日喜好的科技时尚娱乐生活

以及,其视频理解模型更新,支持 2 个小时的内容了:《智谱Realtime、4V、Air新模型发布,上线bigmodel.cn11G喜好网-记录每日喜好的科技时尚娱乐生活

当然,从开发者的角度,最值得吹嘘的还得是以下 4 种模型全免费:11G喜好网-记录每日喜好的科技时尚娱乐生活

  • 语言模型 GLM-4-Flash
  • 图像理解模型 GLM-4V-Flash
  • 图像生成模型 CogView-3-Flash
  • 视频生成模型 CogVideoX-Flash

在最后还得说,这个测试一点都不严谨,而且我们也应知道,模型和人看图的原理,就是不同,但很有意思:只有大模型对世界的观察,和我们一样,才能更好的服务于我们。11G喜好网-记录每日喜好的科技时尚娱乐生活

以及... 国内其他几家我也测了,结果并不理想。如果想知道结论,可拿文章里的图自来测,然后发到评论区。11G喜好网-记录每日喜好的科技时尚娱乐生活

大模型
展开全文
猜你感兴趣
五环外接不住马拉松“泼天富贵”

五环外接不住马拉松“泼天富贵”

11月10日,这个寻常的周末,全国有十

11-19 68阅读
模型能力比肩OpenAI-o1 夸克全新“AI搜题”让新题、难题都有解

模型能力比肩OpenAI-o1 夸克全新

【锋巢网】随着AI融入学习场景,诸

11-19 78阅读
Redmi史上强旗舰!K80系列开启预约:下周发布

Redmi史上强旗舰!K80系列开启预约

11月19日

11-19 75阅读
护眼的2K旗舰!Redmi K80是行业唯一支持全亮度DC的2K屏手机

护眼的2K旗舰!Redmi K80是行业唯

11月18日

11-19 78阅读
宇瞻发布NOX RGB DDR5电竞内存条,速度高达8000MT/s

宇瞻发布NOX RGB DDR5电竞内存条

11-19 76阅读
脱离海马后,他们的那段故事就像是一场梦

脱离海马后,他们的那段故事

11-19 72阅读
远离“造神”陷阱,官媒发文辟谣,揭开了53岁刀郎的“真实近况”

远离“造神”陷阱,官媒发文

11-19 71阅读
柯震东吸毒后复出, 出演台湾剧《乩身》网友抵制!

柯震东吸毒后复出, 出演台

柯震东当年凭借着《那些年,我们一

11-19 56阅读
《老舅》官宣开机,郭京飞、王佳佳领衔主演,重绘时代浪潮下的经典温暖记忆

《老舅》官宣开机,郭京飞、

  11月14日,由腾讯视频、鸣涧影业出

11-19 63阅读
44岁董洁:曾是无数人的“白月光”,却陷入中年尴尬

44岁董洁:曾是无数人的“白

董洁,她曾经是无数人心中的白月光,但也

11-19 68阅读
和平精英国际服怎么选择国家?和平精英国际服改国籍方法

和平精英国际服怎么选择国

《和平精英国际服》是蓝洞和腾讯联合出

11-19 126阅读
以撒的结合全结局及其达成条件详细介绍

以撒的结合全结局及其达成

以撒的结合是一款剧情和玩法都非常精彩

11-19 95阅读
CS1.6怎么加机器人?CS1.6加机器人方法

CS1.6怎么加机器人?CS1.6

《CS1.6》也就是大家都玩过的反恐精英

11-19 126阅读
原神尽在咫尺的目标任务怎么做|尽在咫尺的目标任务攻略

原神尽在咫尺的目标任务怎

尽在咫尺的目标是原神须弥地区魔神主线

11-19 65阅读
饥荒通过卡猪人快速回复san值的详细操作方法

饥荒通过卡猪人快速回复sa

饥荒游戏里面玩家经常会面对san值不足

11-19 67阅读