ChatGPT 整合 GPT-4o 推出图像生成功能-喜好网-记录每日喜好的科技时尚娱乐生活

ChatGPT 整合 GPT-4o 推出图像生成功能

4个月前科技 21观看

摘要 OpenAI 从今天开始将新的图像生成功能直接整合到 ChatGPT 中——这项功能被称为"Images in ChatGPT"。用户现在可以使用 GPT-4o 在 ChatGPT 中直接生成图像。这次首次发布仅专注于

OpenAI 从今天开始将新的图像生成功能直接整合到 ChatGPT 中——这项功能被称为"Images in ChatGPT"。用户现在可以使用 GPT-4o 在 ChatGPT 中直接生成图像。

这次首次发布仅专注于图像创建功能，将面向 ChatGPT Plus、Pro、Team 和免费订阅层级的用户开放。发言人 Taya Christianson 告诉 The Verge，免费版的使用限制与 DALL-E 相同，但补充说他们"没有具体的数字可以分享"，并且"这些限制可能会根据需求随时间变化"。根据 ChatGPT 常见问题解答，免费用户此前可以"每天使用 DALL-E 3 生成三张图片"。至于 DALL-E 的未来，Christianson 表示"粉丝们"将"仍然可以通过自定义 GPT 访问"。

研究负责人 Gabriel Goh 告诉 The Verge："这个模型相比之前的模型是一个重大进步"，他补充说团队使用了 GPT-4o "全模态"（一种可以生成文本、图像、音频和视频等任何类型数据的模型）基础来实现这个功能。

Goh 提到的一些改进包括"绑定"，这指的是 AI 图像生成器如何维持属性和对象之间的正确关系；一个绑定能力差的模型可能在收到蓝色星星加红色三角形的提示时，会创建一个红色星星而没有三角形。Goh 说，大多数图像模型在处理这个问题时都很困难，在被要求渲染多个物品（通常是 5 到 8 个）时经常混淆颜色和形状。他表示，这个新的图像生成工具可以正确绑定 15 到 20 个对象的属性而不会混淆，这在准确性和可靠性方面代表了显著的进步。

用户还会注意到文本渲染的改进，这使得在图像上生成连贯的文本而不出现拼写错误变得更容易（在现有工具中，你经常会发现文本很容易变得混乱）。Goh 说，实现正确的文本渲染是一个重大挑战。如果小标题或文本元素有拼写错误，整个图像可能变得无法使用。

"这是一个经过多月反复迭代才完成的过程，"Goh 说。虽然还不完美，但他表示团队已经达到了文本质量持续可用的程度（它在非常小的文本上还是会出现错误）。"这是经过数月的小改进才实现的。"

该系统使用自回归方法——从左到右、从上到下按顺序生成图像，类似于文本的书写方式——而不是大多数图像生成器（如 DALL-E）使用的扩散模型技术，后者是一次性创建整个图像。Goh 推测，这种技术差异可能是赋予 Images in ChatGPT 更好的文本渲染和绑定能力的原因。

在功能发布前的简报中，团队展示了几个例子来说明系统的功能，包括具有正确标记组件的牛顿棱镜实验等科学图表、具有一致性角色和对话气泡的多面板漫画，以及准确文本的信息海报。他们还强调了实际应用，如创建透明背景的贴纸图像、餐厅菜单和标志。

ChatGPT 多模态产品负责人 Jackie Shannon 解释说："当我去画一张图像时，我不仅受限于自己的技能......还会用到我积累的所有世界知识。这个模型将世界知识带入等式中，所以当你要求生成牛顿棱镜实验的图像时，你不需要解释那是什么就能得到图像。"

新系统生成图像的时间比以前更长，不过 OpenAI 认为这是值得的权衡。Shannon 说："虽然我们在延迟方面肯定还有改进的空间...但这些图像的质量、功能和世界知识，真的弥补了他们多等待的几秒钟。"

在被问到安全保护措施时——提到了使用 Microsoft 模型生成的 Taylor Swift 裸体换脸事件，xAI 的 Grok 能够渲染持枪的 Kamala Harris，以及 Google Gemini 移除水印的能力——OpenAI 团队强调该系统包含了强大的安全保护措施以防止滥用。Shannon 说该工具可以防止水印移除、阻止生成性相关的换脸内容，并拒绝生成 CSAM 的请求。

OpenAI 的新图像生成系统不包含视觉水印或显示图像是 AI 生成的标识。不过，Shannon 解释说，"我们生成的所有图像都将包含标准的 C2PA 元数据，以标记图像是由 OpenAI 创建的"，并且公司"将有一些内部工具来查找图像"。

"最终，对于这类问题没有完美的系统，但我们在不断改进我们的安全保护措施，我们认为这是一个起点，"Shannon 补充道。"ChatGPT 生成的所有图像都具有一个共同点，即用户拥有这些图像的所有权，并可以在我们的使用政策范围内随意使用它们。"

更新，3 月 25 日：文章最初将 ChatGPT 中的图像生成功能称为 Sora；它的正式名称是 Images in ChatGPT。

展开全文

猜你感兴趣