ChatGPT 整合 GPT-4o 推出图像生成功能

4个月前 科技 21观看
摘要 OpenAI 从今天开始将新的图像生成功能直接整合到 ChatGPT 中——这项功能被称为"Images in ChatGPT"。用户现在可以使用 GPT-4o 在 ChatGPT 中直接生成图像。这次首次发布仅专注于

OpenAI 从今天开始将新的图像生成功能直接整合到 ChatGPT 中——这项功能被称为"Images in ChatGPT"。用户现在可以使用 GPT-4o 在 ChatGPT 中直接生成图像。PZ4喜好网-记录每日喜好的科技时尚娱乐生活

这次首次发布仅专注于图像创建功能,将面向 ChatGPT Plus、Pro、Team 和免费订阅层级的用户开放。发言人 Taya Christianson 告诉 The Verge,免费版的使用限制与 DALL-E 相同,但补充说他们"没有具体的数字可以分享",并且"这些限制可能会根据需求随时间变化"。根据 ChatGPT 常见问题解答,免费用户此前可以"每天使用 DALL-E 3 生成三张图片"。至于 DALL-E 的未来,Christianson 表示"粉丝们"将"仍然可以通过自定义 GPT 访问"。PZ4喜好网-记录每日喜好的科技时尚娱乐生活

研究负责人 Gabriel Goh 告诉 The Verge:"这个模型相比之前的模型是一个重大进步",他补充说团队使用了 GPT-4o "全模态"(一种可以生成文本、图像、音频和视频等任何类型数据的模型)基础来实现这个功能。PZ4喜好网-记录每日喜好的科技时尚娱乐生活

Goh 提到的一些改进包括"绑定",这指的是 AI 图像生成器如何维持属性和对象之间的正确关系;一个绑定能力差的模型可能在收到蓝色星星加红色三角形的提示时,会创建一个红色星星而没有三角形。Goh 说,大多数图像模型在处理这个问题时都很困难,在被要求渲染多个物品(通常是 5 到 8 个)时经常混淆颜色和形状。他表示,这个新的图像生成工具可以正确绑定 15 到 20 个对象的属性而不会混淆,这在准确性和可靠性方面代表了显著的进步。PZ4喜好网-记录每日喜好的科技时尚娱乐生活

用户还会注意到文本渲染的改进,这使得在图像上生成连贯的文本而不出现拼写错误变得更容易(在现有工具中,你经常会发现文本很容易变得混乱)。Goh 说,实现正确的文本渲染是一个重大挑战。如果小标题或文本元素有拼写错误,整个图像可能变得无法使用。PZ4喜好网-记录每日喜好的科技时尚娱乐生活

"这是一个经过多月反复迭代才完成的过程,"Goh 说。虽然还不完美,但他表示团队已经达到了文本质量持续可用的程度(它在非常小的文本上还是会出现错误)。"这是经过数月的小改进才实现的。"PZ4喜好网-记录每日喜好的科技时尚娱乐生活

该系统使用自回归方法——从左到右、从上到下按顺序生成图像,类似于文本的书写方式——而不是大多数图像生成器(如 DALL-E)使用的扩散模型技术,后者是一次性创建整个图像。Goh 推测,这种技术差异可能是赋予 Images in ChatGPT 更好的文本渲染和绑定能力的原因。PZ4喜好网-记录每日喜好的科技时尚娱乐生活

在功能发布前的简报中,团队展示了几个例子来说明系统的功能,包括具有正确标记组件的牛顿棱镜实验等科学图表、具有一致性角色和对话气泡的多面板漫画,以及准确文本的信息海报。他们还强调了实际应用,如创建透明背景的贴纸图像、餐厅菜单和标志。PZ4喜好网-记录每日喜好的科技时尚娱乐生活

ChatGPT 多模态产品负责人 Jackie Shannon 解释说:"当我去画一张图像时,我不仅受限于自己的技能......还会用到我积累的所有世界知识。这个模型将世界知识带入等式中,所以当你要求生成牛顿棱镜实验的图像时,你不需要解释那是什么就能得到图像。"PZ4喜好网-记录每日喜好的科技时尚娱乐生活

新系统生成图像的时间比以前更长,不过 OpenAI 认为这是值得的权衡。Shannon 说:"虽然我们在延迟方面肯定还有改进的空间...但这些图像的质量、功能和世界知识,真的弥补了他们多等待的几秒钟。"PZ4喜好网-记录每日喜好的科技时尚娱乐生活

在被问到安全保护措施时——提到了使用 Microsoft 模型生成的 Taylor Swift 裸体换脸事件,xAI 的 Grok 能够渲染持枪的 Kamala Harris,以及 Google Gemini 移除水印的能力——OpenAI 团队强调该系统包含了强大的安全保护措施以防止滥用。Shannon 说该工具可以防止水印移除、阻止生成性相关的换脸内容,并拒绝生成 CSAM 的请求。PZ4喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 的新图像生成系统不包含视觉水印或显示图像是 AI 生成的标识。不过,Shannon 解释说,"我们生成的所有图像都将包含标准的 C2PA 元数据,以标记图像是由 OpenAI 创建的",并且公司"将有一些内部工具来查找图像"。PZ4喜好网-记录每日喜好的科技时尚娱乐生活

"最终,对于这类问题没有完美的系统,但我们在不断改进我们的安全保护措施,我们认为这是一个起点,"Shannon 补充道。"ChatGPT 生成的所有图像都具有一个共同点,即用户拥有这些图像的所有权,并可以在我们的使用政策范围内随意使用它们。"PZ4喜好网-记录每日喜好的科技时尚娱乐生活

更新,3 月 25 日:文章最初将 ChatGPT 中的图像生成功能称为 Sora;它的正式名称是 Images in ChatGPT。PZ4喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
消息称抖音正推进“V”项目,包括直播游戏互动、AI 分身功能等

消息称抖音正推进“V”项目,包括

11 月

11-19 112阅读
大厂离职博主,卷向海外

大厂离职博主,卷向海外

离开

11-19 123阅读
李子柒:反商业化「顶流」

李子柒:反商业化「顶流」

沉寂1

11-19 105阅读
海马体的“中年危机”

海马体的“中年危机”

写真

11-19 113阅读
山东新起点完成2000万元A轮融资

山东新起点完成2000万元A轮融资

近日,

11-19 131阅读
为什么说当下是最适合李子柒回归的时候?

为什么说当下是最适合李子

作者 / 向   向运营 / 狮子座携“

11-19 102阅读
林青霞谢娜同框, 竟是为了张杰?

林青霞谢娜同框, 竟是为了

张杰的首部舞台剧《曾经如是》正

11-19 106阅读
贾乃亮帮清购物车, 网友没胆安利给自家老板!

贾乃亮帮清购物车, 网友没

今天双十二,大家剁手了吗!小编是没

11-19 107阅读
郭德纲外甥大婚排场大!岳云鹏张云雷引人关注,新娘面相惹争议

郭德纲外甥大婚排场大!岳云

11月18日,德云社相声演员王九龙大婚,他

11-19 114阅读
扁鹊归宿地的怅惘(扁鹊归宿地的怅惘)

扁鹊归宿地的怅惘(扁鹊归宿

关键词:神医扁鹊 气死回生 讳疾忌医

11-19 106阅读
《啪嗒砰》精神续作《Ratatan》新预告片分享

《啪嗒砰》精神续作《Rata

Game Source Entertainment 宣布与开

11-19 129阅读
PS5 Pro在美国的首发销量与PS4 Pro相近

PS5 Pro在美国的首发销量

PS5 Pro 于本月早些时候发行,虽然这款

11-19 129阅读
《星刃》开发商否认《胜利女神》将改编动画的传言

《星刃》开发商否认《胜利

《星刃》对于开发商Shift Up而言是一

11-19 124阅读
原子之心村子区域所有啁啾表位置详细介绍

原子之心村子区域所有啁啾

原子之心游戏的村子区域里面一共拥有4

11-19 133阅读
原子之心医院区域密码房解谜攻略

原子之心医院区域密码房解

原子之心的医院区域里面有一个密码房,需

11-19 141阅读