ChatGPT 整合 GPT-4o 推出图像生成功能

1个月前 科技 7观看
摘要 OpenAI 从今天开始将新的图像生成功能直接整合到 ChatGPT 中——这项功能被称为"Images in ChatGPT"。用户现在可以使用 GPT-4o 在 ChatGPT 中直接生成图像。这次首次发布仅专注于

OpenAI 从今天开始将新的图像生成功能直接整合到 ChatGPT 中——这项功能被称为"Images in ChatGPT"。用户现在可以使用 GPT-4o 在 ChatGPT 中直接生成图像。QqI喜好网-记录每日喜好的科技时尚娱乐生活

这次首次发布仅专注于图像创建功能,将面向 ChatGPT Plus、Pro、Team 和免费订阅层级的用户开放。发言人 Taya Christianson 告诉 The Verge,免费版的使用限制与 DALL-E 相同,但补充说他们"没有具体的数字可以分享",并且"这些限制可能会根据需求随时间变化"。根据 ChatGPT 常见问题解答,免费用户此前可以"每天使用 DALL-E 3 生成三张图片"。至于 DALL-E 的未来,Christianson 表示"粉丝们"将"仍然可以通过自定义 GPT 访问"。QqI喜好网-记录每日喜好的科技时尚娱乐生活

研究负责人 Gabriel Goh 告诉 The Verge:"这个模型相比之前的模型是一个重大进步",他补充说团队使用了 GPT-4o "全模态"(一种可以生成文本、图像、音频和视频等任何类型数据的模型)基础来实现这个功能。QqI喜好网-记录每日喜好的科技时尚娱乐生活

Goh 提到的一些改进包括"绑定",这指的是 AI 图像生成器如何维持属性和对象之间的正确关系;一个绑定能力差的模型可能在收到蓝色星星加红色三角形的提示时,会创建一个红色星星而没有三角形。Goh 说,大多数图像模型在处理这个问题时都很困难,在被要求渲染多个物品(通常是 5 到 8 个)时经常混淆颜色和形状。他表示,这个新的图像生成工具可以正确绑定 15 到 20 个对象的属性而不会混淆,这在准确性和可靠性方面代表了显著的进步。QqI喜好网-记录每日喜好的科技时尚娱乐生活

用户还会注意到文本渲染的改进,这使得在图像上生成连贯的文本而不出现拼写错误变得更容易(在现有工具中,你经常会发现文本很容易变得混乱)。Goh 说,实现正确的文本渲染是一个重大挑战。如果小标题或文本元素有拼写错误,整个图像可能变得无法使用。QqI喜好网-记录每日喜好的科技时尚娱乐生活

"这是一个经过多月反复迭代才完成的过程,"Goh 说。虽然还不完美,但他表示团队已经达到了文本质量持续可用的程度(它在非常小的文本上还是会出现错误)。"这是经过数月的小改进才实现的。"QqI喜好网-记录每日喜好的科技时尚娱乐生活

该系统使用自回归方法——从左到右、从上到下按顺序生成图像,类似于文本的书写方式——而不是大多数图像生成器(如 DALL-E)使用的扩散模型技术,后者是一次性创建整个图像。Goh 推测,这种技术差异可能是赋予 Images in ChatGPT 更好的文本渲染和绑定能力的原因。QqI喜好网-记录每日喜好的科技时尚娱乐生活

在功能发布前的简报中,团队展示了几个例子来说明系统的功能,包括具有正确标记组件的牛顿棱镜实验等科学图表、具有一致性角色和对话气泡的多面板漫画,以及准确文本的信息海报。他们还强调了实际应用,如创建透明背景的贴纸图像、餐厅菜单和标志。QqI喜好网-记录每日喜好的科技时尚娱乐生活

ChatGPT 多模态产品负责人 Jackie Shannon 解释说:"当我去画一张图像时,我不仅受限于自己的技能......还会用到我积累的所有世界知识。这个模型将世界知识带入等式中,所以当你要求生成牛顿棱镜实验的图像时,你不需要解释那是什么就能得到图像。"QqI喜好网-记录每日喜好的科技时尚娱乐生活

新系统生成图像的时间比以前更长,不过 OpenAI 认为这是值得的权衡。Shannon 说:"虽然我们在延迟方面肯定还有改进的空间...但这些图像的质量、功能和世界知识,真的弥补了他们多等待的几秒钟。"QqI喜好网-记录每日喜好的科技时尚娱乐生活

在被问到安全保护措施时——提到了使用 Microsoft 模型生成的 Taylor Swift 裸体换脸事件,xAI 的 Grok 能够渲染持枪的 Kamala Harris,以及 Google Gemini 移除水印的能力——OpenAI 团队强调该系统包含了强大的安全保护措施以防止滥用。Shannon 说该工具可以防止水印移除、阻止生成性相关的换脸内容,并拒绝生成 CSAM 的请求。QqI喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 的新图像生成系统不包含视觉水印或显示图像是 AI 生成的标识。不过,Shannon 解释说,"我们生成的所有图像都将包含标准的 C2PA 元数据,以标记图像是由 OpenAI 创建的",并且公司"将有一些内部工具来查找图像"。QqI喜好网-记录每日喜好的科技时尚娱乐生活

"最终,对于这类问题没有完美的系统,但我们在不断改进我们的安全保护措施,我们认为这是一个起点,"Shannon 补充道。"ChatGPT 生成的所有图像都具有一个共同点,即用户拥有这些图像的所有权,并可以在我们的使用政策范围内随意使用它们。"QqI喜好网-记录每日喜好的科技时尚娱乐生活

更新,3 月 25 日:文章最初将 ChatGPT 中的图像生成功能称为 Sora;它的正式名称是 Images in ChatGPT。QqI喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
董宇辉终究难逃宿命

董宇辉终究难逃宿命

直播带货业已进入到一场深度洗牌

11-19 74阅读
中国联通:6G 70%技术与5G重合 将有6大典型应用

中国联通:6G 70%技术与5G重合 将有

时至今日,6

11-19 65阅读
“知春路时代”的创业者,被回购条款绊了一跤

“知春路时代”的创业者,被回购条

这次

11-19 68阅读
郎酒大战夜郎古,一个字2亿元

郎酒大战夜郎古,一个字2亿元

不是

11-19 60阅读
大模型的效率腾飞,彩云科技做对了什么?

大模型的效率腾飞,彩云科技做对了

对于绝大多数AI创业者来说,AGI的

11-19 64阅读
冯小刚和范冰冰关系不简单, 冯小刚力挺范冰冰复出引众怒

冯小刚和范冰冰关系不简单

众所周知范爷范冰冰在还没被封杀

11-19 69阅读
《藏海花之暗巢汹涌》定档11月14日 古穴探险再寻迷踪嗜血凶怪惊悚升级

《藏海花之暗巢汹涌》定档

  改编自南派三叔原著小说《藏海花

11-19 70阅读
释彦能:银幕硬汉,反派巅峰——正邪交锋,票房破亿传奇!

释彦能:银幕硬汉,反派巅峰—

  在当今动作电影的舞台上,释彦能以

11-19 65阅读
《大梦归离》迎来大结局,用热血群像展现悲凉内核探讨生命的意义

《大梦归离》迎来大结局,用

  由爱奇艺出品,最世文化、奥羽工作

11-19 68阅读
董明珠称训员工被指霸道很好笑:企业管理者声音大点还没这个话语权了

董明珠称训员工被指霸道很

11月16日消息,之

11-19 67阅读
《啪嗒砰》精神续作《Ratatan》新预告片分享

《啪嗒砰》精神续作《Rata

Game Source Entertainment 宣布与开

11-19 66阅读
特别好评《永恒天空》明年登陆PS5 试玩Demo现已上线

特别好评《永恒天空》明年

于 2023 年 6 月发售的开放世界科幻生

11-19 71阅读
原子之心剧院死者位置_剧院全部死者所在位置分享

原子之心剧院死者位置_剧

原子之心的剧院区域中一共存在7个死者,

11-19 61阅读
原神智慧之神的踪影任务流程|原神智慧之神的踪影攻略

原神智慧之神的踪影任务流

原神智慧之神的踪影是须弥地区魔神主线

11-19 73阅读
饥荒中毒了怎么解毒?饥荒解除中毒状态的详细操作方法

饥荒中毒了怎么解毒?饥荒

饥荒中毒了怎么解毒?在饥荒游戏中玩家偶

11-19 65阅读