OpenAI 新推出的语音 AI 模型 gpt-4o-transcribe 让你几秒钟内为现有文本应用添加语音功能

1个月前 科技 12观看
摘要 尽管 OpenAI 的语音 AI 模型此前曾因演员 Scarlett Johansson 的事件而陷入困境,但这并未阻止该公司在这一领域继续推进技术创新。今天,这家 ChatGPT 的开发商发布了三个全新的专有语音模型:gpt

尽管 OpenAI 的语音 AI 模型此前曾因演员 Scarlett Johansson 的事件而陷入困境,但这并未阻止该公司在这一领域继续推进技术创新。NAi喜好网-记录每日喜好的科技时尚娱乐生活

今天,这家 ChatGPT 的开发商发布了三个全新的专有语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。这些模型最初通过应用程序接口 (API) 向第三方软件开发者提供,供他们构建自己的应用程序。同时,OpenAI 还推出了一个名为 OpenAI.fm 的演示网站,供个人用户进行有限的测试和体验。NAi喜好网-记录每日喜好的科技时尚娱乐生活

此外,gpt-4o-mini-tts 模型的语音可以通过文本提示从多个预设中进行定制,以改变其口音、音调、语气和其他声音特质——包括表达用户要求的任何情绪。这应该能很好地解决人们担心 OpenAI 刻意模仿特定用户声音的问题(该公司此前否认在 Johansson 事件中存在模仿行为,但还是撤下了那个可能涉及模仿的语音选项)。现在用户可以自行决定他们想要 AI 语音如何发声。NAi喜好网-记录每日喜好的科技时尚娱乐生活

在与 VentureBeat 进行的视频通话演示中,OpenAI 技术人员 Jeff Harris 展示了用户如何仅通过演示网站上的文本,就能让同一个语音听起来像一个狂笑的疯狂科学家或一个禅意十足、平静的瑜伽老师。NAi喜好网-记录每日喜好的科技时尚娱乐生活

发掘和完善 GPT-4o 基础模型的新功能NAi喜好网-记录每日喜好的科技时尚娱乐生活

这些模型是 OpenAI 在 2024 年 5 月推出的 GPT-4o 模型的变体,目前为许多用户提供 ChatGPT 的文本和语音体验。公司通过额外的数据对基础模型进行后期训练,使其在转录和语音方面表现出色。公司没有具体说明这些模型何时会应用到 ChatGPT 中。NAi喜好网-记录每日喜好的科技时尚娱乐生活

Harris 表示:"ChatGPT 在成本和性能权衡方面有着略微不同的要求,所以虽然我预计它们最终会采用这些模型,但目前这次发布主要针对 API 用户。"NAi喜好网-记录每日喜好的科技时尚娱乐生活

这些新模型旨在取代 OpenAI 两年前推出的开源文本转语音模型 Whisper。在行业基准测试中,新模型展现出更低的词错误率,并在嘈杂环境中、不同口音和各种语速下都有更好的表现——支持超过 100 种语言。NAi喜好网-记录每日喜好的科技时尚娱乐生活

公司在其网站上发布了一张图表,显示 gpt-4o-transcribe 模型在 33 种语言中的词识别错误率明显低于 Whisper——英语的错误率仅为 2.46%。NAi喜好网-记录每日喜好的科技时尚娱乐生活

Harris 说:"这些模型包含噪声消除和语义语音活动检测器,有助于确定说话者何时完成了一个想法,从而提高转录准确性。"NAi喜好网-记录每日喜好的科技时尚娱乐生活

Harris 告诉 VentureBeat,新的 gpt-4o-transcribe 模型系列并非设计用于"说话人分离",即标记和区分不同说话者的功能。相反,它主要设计用于接收单个(或可能多个)声音作为单一输入通道,并在该交互中用单一输出声音响应所有输入。NAi喜好网-记录每日喜好的科技时尚娱乐生活

公司还举办了一个面向公众的比赛,寻找使用其演示语音网站 OpenAI.fm 的最具创意的例子,参与者需要在 X 平台上标记 @openAI 账号分享。获胜者将获得一台带有 OpenAI 标志的定制版 Teenage Engineering 收音机,OpenAI 平台产品负责人 Olivier Godement 表示这是全球仅有的三台之一。NAi喜好网-记录每日喜好的科技时尚娱乐生活

音频应用的金矿NAi喜好网-记录每日喜好的科技时尚娱乐生活

这些增强功能使其特别适合客户呼叫中心、会议记录转录和 AI 驱动的助手等应用场景。NAi喜好网-记录每日喜好的科技时尚娱乐生活

令人印象深刻的是,根据上周 OpenAI YouTube 直播发布新模型时的演示者介绍,通过公司新推出的 Agents SDK,那些已经在常规 GPT-4o 等文本大语言模型基础上构建应用的开发者,只需"约 9 行代码"就能添加流畅的语音交互功能。NAi喜好网-记录每日喜好的科技时尚娱乐生活

例如,基于 GPT-4o 构建的电商应用现在只需几秒钟的代码调整,就能通过添加这些新模型来用语音回应用户的轮次性问题,比如"告诉我我最近的订单"。NAi喜好网-记录每日喜好的科技时尚娱乐生活

Harris 说:"我们首次引入了流式语音转文本功能,允许开发者持续输入音频并接收实时文本流,使对话感觉更自然。"NAi喜好网-记录每日喜好的科技时尚娱乐生活

不过,对于那些寻求低延迟、实时 AI 语音体验的开发者,OpenAI 建议使用其 Realtime API 中的语音到语音模型。NAi喜好网-记录每日喜好的科技时尚娱乐生活

定价和可用性NAi喜好网-记录每日喜好的科技时尚娱乐生活

新模型即刻通过 OpenAI 的 API 提供,定价如下:NAi喜好网-记录每日喜好的科技时尚娱乐生活

o gpt-4o-transcribe:每 100 万音频输入 token 6.00 美元(约每分钟 0.006 美元)NAi喜好网-记录每日喜好的科技时尚娱乐生活

o gpt-4o-mini-transcribe:每 100 万音频输入 token 3.00 美元(约每分钟 0.003 美元)NAi喜好网-记录每日喜好的科技时尚娱乐生活

o gpt-4o-mini-tts:每 100 万文本输入 token 0.60 美元,每 100 万音频输出 token 12.00 美元(约每分钟 0.015 美元)NAi喜好网-记录每日喜好的科技时尚娱乐生活

然而,它们进入市场时面临着前所未有的激烈竞争。专注于语音 AI 的公司如 ElevenLabs 推出了支持说话人分离的新型 Scribe 模型,英语错误率也较低(但不及 OpenAI),为 3.3%,定价为每小时输入音频 0.40 美元(约每分钟 0.006 美元,与 OpenAI 相当)。NAi喜好网-记录每日喜好的科技时尚娱乐生活

另一家初创公司 Hume AI 提供新模型 Octave TTS,支持句子级甚至词级的发音和情感语调定制——完全基于用户指令,而不是预设声音。Octave TTS 的定价不能直接比较,但有提供 10 分钟免费音频的免费层级。NAi喜好网-记录每日喜好的科技时尚娱乐生活

同时,更高级的音频和语音模型也正在进入开源社区,包括一个名为 Orpheus 3B 的模型,它采用宽松的 Apache 2.0 许可证,这意味着只要开发者拥有合适的硬件或云服务器,就无需支付任何使用成本。NAi喜好网-记录每日喜好的科技时尚娱乐生活

行业采用和早期成果NAi喜好网-记录每日喜好的科技时尚娱乐生活

根据 OpenAI 与 VentureBeat 分享的用户反馈,已有多家公司将 OpenAI 的新音频模型整合到其平台中,并报告了语音 AI 性能的显著提升。NAi喜好网-记录每日喜好的科技时尚娱乐生活

专注于物业管理自动化的 EliseAI 发现,OpenAI 的文本转语音模型实现了与租户更自然、情感更丰富的互动。增强的语音使 AI 驱动的租赁、维护和预约参观更具吸引力,提高了租户满意度和通话解决率。NAi喜好网-记录每日喜好的科技时尚娱乐生活

构建 AI 语音体验的 Decagon 使用 OpenAI 的语音识别模型后,转录准确率提高了 30%。这种准确率的提升使 Decagon 的 AI 代理能够在现实场景中更可靠地运行,即使在嘈杂环境中也是如此。集成过程很快,Decagon 在一天内就完成了新模型的系统整合。NAi喜好网-记录每日喜好的科技时尚娱乐生活

并非所有对 OpenAI 最新发布的反应都是积极的。Dawn AI 应用分析软件联合创始人、前苹果人机界面设计师 Ben Hylak (@benhylak) 在 X 平台上发表评论说,虽然这些模型看起来很有前景,但这次发布"感觉像是对实时语音的退却",暗示 OpenAI 正在偏离其此前通过 ChatGPT 专注于低延迟对话式 AI 的方向。NAi喜好网-记录每日喜好的科技时尚娱乐生活

此外,在正式发布前,这些信息在 X 平台(原 Twitter)上被提前泄露。TestingCatalog News (@testingcatalog) 在官方宣布前几分钟就发布了新模型的详细信息,列出了 gpt-4o-mini-tts、gpt-4o-transcribe 和 gpt-4o-mini-transcribe 的名称。这个泄露信息归功于 @StivenTheDev,该帖子迅速获得关注。NAi喜好网-记录每日喜好的科技时尚娱乐生活

展望未来,OpenAI 计划继续完善其音频模型,并在确保安全和负责任的 AI 使用的前提下探索自定义语音功能。除了音频之外,OpenAI 还在投资多模态 AI,包括视频,以实现更动态和交互式的基于代理的体验。NAi喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
抖音电商拐点已至,从美妆行业开始跌落?

抖音电商拐点已至,从美妆行业开始

前几日,抖音首次公布了“双11”大

11-19 64阅读
有你吗 比亚迪抽车中奖名单公布:共90台仰望U8、腾势Z9 GT、豹8豪车

有你吗 比亚迪抽车中奖名单公布:

11月19日

11-19 73阅读
「西图之光」获近千万元A轮融资

「西图之光」获近千万元A轮融资

【投

11-19 66阅读
山东新起点完成2000万元A轮融资

山东新起点完成2000万元A轮融资

近日,

11-19 67阅读
洋咖啡,为何卖不动了?

洋咖啡,为何卖不动了?

近日,

11-19 65阅读
抖音短剧《大话·大话西游》开播 33位喜剧人出演

抖音短剧《大话·大话西游

11月8日消息,据抖音集团官方公众号透露,

11-19 71阅读
写意锦官城(写意锦官城)

写意锦官城(写意锦官城)

写意锦官城 作者:解朝侠 一直

11-19 62阅读
释彦能:银幕硬汉,反派巅峰——正邪交锋,票房破亿传奇!

释彦能:银幕硬汉,反派巅峰—

  在当今动作电影的舞台上,释彦能以

11-19 64阅读
马斯克赌大赢大 部分广告商准备重返推特

马斯克赌大赢大 部分广告

多位媒体高管透

11-19 70阅读
《猫眼三姐妹》动画将重制!童年三女神高清归来!

《猫眼三姐妹》动画将重制

近日有报道称,北

11-19 65阅读
原子之心3826设施啁啾表全收集攻略

原子之心3826设施啁啾表全

啁啾表是原子之心游戏里面的一个特殊收

11-19 63阅读
原子之心电脉冲枪怎么用?原子之心电脉冲枪用不了的解决办法

原子之心电脉冲枪怎么用?

原子之心电脉冲枪怎么用?电脉冲枪是原子

11-19 69阅读
原子之心冰箱在哪?原子之心冰箱位置详细介绍

原子之心冰箱在哪?原子之

原子之心冰箱在哪?原子之心游戏里面那台

11-19 69阅读
饥荒超详细驯服牦牛技巧分享

饥荒超详细驯服牦牛技巧分

在饥荒游戏里面玩家可以驯服牦牛,而且根

11-19 66阅读
饥荒南瓜可以做什么?饥荒超全南瓜食谱分享

饥荒南瓜可以做什么?饥荒

南瓜是饥荒游戏里面的一种蔬菜,玩家可以

11-19 68阅读