亚马逊推出新实时语音模型 Nova Sonic,面向第三方企业开发

4个月前 科技 25观看
摘要 亚马逊作为电子商务巨头广为人知,而其 Alexa AI 语音助手产品则可能排在其知名产品清单的稍后位置。上个月,Alexa 在 Amazon Nova 和亚马逊投资的 Anthropic 的帮助下获得了重大智能升级。现在

亚马逊作为电子商务巨头广为人知,而其 Alexa AI 语音助手产品则可能排在其知名产品清单的稍后位置。上个月,Alexa 在 Amazon Nova 和亚马逊投资的 Anthropic 的帮助下获得了重大智能升级。f3W喜好网-记录每日喜好的科技时尚娱乐生活

现在,Alexa 将迎来一位新的亚马逊语音 AI 兄弟:今天,该公司推出了 Amazon Nova Sonic,这是一个新的基础模型,旨在让第三方应用开发者通过亚马逊的 Bedrock 网络平台为其产品构建实时、自然、对话式的语音交互功能。f3W喜好网-记录每日喜好的科技时尚娱乐生活

Nova Sonic 现已通过双向流式应用程序接口 (API) 提供服务。实际上,亚马逊已经将其部分功能——提供表征的语音编码器和语音合成器——整合到了新的 Alexa 模型 Alexa+ 中。f3W喜好网-记录每日喜好的科技时尚娱乐生活

"这种方法使我们能够同时将语音技术的优势应用于不同的使用场景,同时基于客户反馈和技术进步继续发展这两个系统,"一位发言人告诉我们。f3W喜好网-记录每日喜好的科技时尚娱乐生活

显而易见的应用场景包括客户支持和服务、指导、信息检索和娱乐。f3W喜好网-记录每日喜好的科技时尚娱乐生活

统一的方法f3W喜好网-记录每日喜好的科技时尚娱乐生活

Nova Sonic 解决了语音 AI 中的一个关键挑战:技术的碎片化。f3W喜好网-记录每日喜好的科技时尚娱乐生活

亚马逊人工通用智能 (AGI) 高级副总裁兼首席科学家 Rohit Prasad 昨天在通过亚马逊 Chime 视频服务与 VentureBeat 的视频通话采访中表示,传统上,构建语音界面需要结合语音识别、语言处理和语音合成的独立模型。f3W喜好网-记录每日喜好的科技时尚娱乐生活

这种复杂性通常导致机械、不自然的交互以及增加开发成本。f3W喜好网-记录每日喜好的科技时尚娱乐生活

现在,Sonic 试图通过将这三种不同类型的模型合并为一个整体来改进这种状况。f3W喜好网-记录每日喜好的科技时尚娱乐生活

Prasad 解释了该模型的核心创新:"Nova Sonic 将传统上分离的三个模型——语音转文本、文本理解和文本转语音——整合为一个统一系统,不仅能模拟交流的'内容',还能模拟交流的'方式'。"f3W喜好网-记录每日喜好的科技时尚娱乐生活

通过保留声学上下文——如语调、节奏和风格——Nova Sonic 有助于保持人类对话的细微差别。f3W喜好网-记录每日喜好的科技时尚娱乐生活

识别实时双向音频对话的复杂性和特点f3W喜好网-记录每日喜好的科技时尚娱乐生活

Nova Sonic 的一个显著能力是处理实时双向对话。它能识别用户何时停顿、犹豫或打断——这些都是人类语音中常见的行为——并能流畅地响应同时保持上下文。f3W喜好网-记录每日喜好的科技时尚娱乐生活

"这里的真正突破是实时、互动、低延迟的语音交互,这意味着你可以在 AI 说话中途打断它,它仍然能保持上下文并做出连贯回应,"Prasad 说。这一特性在客户服务等场景中尤为重要,因为响应性和适应性至关重要。f3W喜好网-记录每日喜好的科技时尚娱乐生活

内置工具使用和工作流集成f3W喜好网-记录每日喜好的科技时尚娱乐生活

Nova Sonic 还设计为与其他系统无缝集成。它自动生成口头输入的转录,可用于触发 API 或与专有工具交互。这使公司能够构建 AI 代理,执行预约、检索实时信息或回答复杂客户查询等任务。f3W喜好网-记录每日喜好的科技时尚娱乐生活

"你可以通过 Amazon Bedrock 使用 Nova Sonic,并将其与任何工具或专有数据源连接,甚至是视觉数据源,只要它们被包装为可调用的 API,"Prasad 说。这种灵活性使该模型适用于广泛的行业,从教育和旅游到企业运营和娱乐。f3W喜好网-记录每日喜好的科技时尚娱乐生活

基准性能和行业比较f3W喜好网-记录每日喜好的科技时尚娱乐生活

Nova Sonic 已与其他实时语音模型进行了基准测试,包括 OpenAI 的 GPT-4o 和 Google 的 Gemini Flash 2.0。在 Common Eval 数据集上,使用男性声音的美式英语单轮对话,它对 Gemini Flash 2.0 的胜率达到 69.7%,对 GPT-4o 的胜率达到 51.0%。女性声音和英式英语声音也有类似的优势。f3W喜好网-记录每日喜好的科技时尚娱乐生活

Prasad 强调了 Nova Sonic 在其主要语言市场的强劲表现:"Nova Sonic 目前在美式和英式英语方面是同类最佳,在对话自然度和准确性方面甚至超过了 GPT-4o 实时版。"他补充道,"据我们所知,只有两个其他模型——GPT-4o 实时版和 GPT-4o mini 的一个变体——在实时结合语音理解和生成方面接近 Nova Sonic 的水平。这个领域仍然非常早期且非常困难。"f3W喜好网-记录每日喜好的科技时尚娱乐生活

多语言能力和噪声环境处理f3W喜好网-记录每日喜好的科技时尚娱乐生活

在语音识别方面,Nova Sonic 在多语言和真实环境条件下也表现出色。在多语言 LibriSpeech 基准测试中,它的词错误率 (WER) 为 4.2%,在英语、法语、德语、意大利语和西班牙语方面比 GPT-4o Transcribe 高出 36% 以上。在嘈杂的多说话人环境中(使用 AMI 基准测量),Nova Sonic 的 WER 比 GPT-4o Transcribe 改进了 46.7%。f3W喜好网-记录每日喜好的科技时尚娱乐生活

表现力丰富的声音和语言扩展f3W喜好网-记录每日喜好的科技时尚娱乐生活

目前,该模型支持多种表现力丰富的声音,包括美式和英式英语的男性和女性声音。亚马逊表示,其他口音和语言正在开发中,将在未来更新中发布。f3W喜好网-记录每日喜好的科技时尚娱乐生活

低延迟和企业友好的成本f3W喜好网-记录每日喜好的科技时尚娱乐生活

速度和成本也是其吸引力的一部分。第三方基准测试显示,Nova Sonic 的客户感知延迟为 1.09 秒,而 OpenAI 的 GPT-4o 为 1.18 秒,Google 的 Gemini Flash 2.0 为 1.41 秒。f3W喜好网-记录每日喜好的科技时尚娱乐生活

从定价角度看,亚马逊将 Nova Sonic 定位为企业级解决方案。"我们比 GPT-4o 实时版便宜近 80%,这种优越的性价比正在引起从实验转向部署的企业的共鸣,"Prasad 说。f3W喜好网-记录每日喜好的科技时尚娱乐生活

各行业的早期采用f3W喜好网-记录每日喜好的科技时尚娱乐生活

据亚马逊称,不同行业的公司已经开始使用或测试 Nova Sonic。f3W喜好网-记录每日喜好的科技时尚娱乐生活

ASAPP 正在应用该技术优化联络中心工作流程,称赞其准确性和自然对话处理能力。f3W喜好网-记录每日喜好的科技时尚娱乐生活

Education First (EF) 使用该模型为语言学习者提供实时发音反馈,特别是对于具有不同口音的非母语人士。f3W喜好网-记录每日喜好的科技时尚娱乐生活

体育数据提供商 Stats Perform 正利用 Nova Sonic 的低延迟和简单设置为其 Opta AI Chat 平台提供快速、数据丰富的交互。f3W喜好网-记录每日喜好的科技时尚娱乐生活

负责任的 AI 和安全承诺f3W喜好网-记录每日喜好的科技时尚娱乐生活

除了性能和成本外,亚马逊还强调其对负责任 AI 开发的承诺。Nova 系列模型包含内置安全保障,并由 AWS AI 服务卡支持,这些服务卡概述了预期用例、潜在限制和道德准则。f3W喜好网-记录每日喜好的科技时尚娱乐生活

Prasad 强调了亚马逊对信任和安全的关注:"信任对我们至关重要——开发者可以在限制范围内定制个性,但我们设置了强大的护栏来防止语音克隆或不必要的模仿。"他补充道,"我们非常努力地消除幻觉和语音漂移。我们为发布设定的标准很高,因为语音生成必须值得信赖。"f3W喜好网-记录每日喜好的科技时尚娱乐生活

Amazon Nova Sonic 现已通过 Amazon Bedrock 全面上市。有兴趣探索该模型的开发者和企业可以访问 https://aws.amazon.com/nova/ 开始使用。f3W喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
拼多多「隐身」双十一

拼多多「隐身」双十一

纵然是在互联互通的大背景下,双十

11-19 121阅读
问界理想的新擂台:问界M8 VS 理想L8

问界理想的新擂台:问界M8 VS 理想

要说近年来什么行业最“卷”,相信

11-19 107阅读
消息称抖音正推进“V”项目,包括直播游戏互动、AI 分身功能等

消息称抖音正推进“V”项目,包括

11 月

11-19 112阅读
雷神G50 Ultra手柄预售:TMR摇杆+扳机震动,179元起

雷神G50 Ultra手柄预售:TMR摇杆+

11-19 123阅读
“抽象”主播为何爆火?

“抽象”主播为何爆火?

前不

11-19 111阅读
腾讯的这部甜宠剧,高颜值cp让人沦陷,男二也让人心动

腾讯的这部甜宠剧,高颜值cp

2020年4月10日,甜宠剧《致我们甜甜

11-19 112阅读
2024花田音乐节燃爆金乡卫城,重磅阵容嗨唱两天狂欢不停

2024花田音乐节燃爆金乡卫

  11月23至24日,金乡卫城·花

11-19 110阅读
郭晶晶霍启刚夫妇合体跑马拉松 结束后匆匆离去直言要回家带小孩

郭晶晶霍启刚夫妇合体跑马

11月17日,香港媒体报道,郭晶晶霍启刚

11-19 119阅读
要钱干嘛!比尔盖茨支持对富豪加税:我愿放弃62%的财富

要钱干嘛!比尔盖茨支持对富

11月11日消息,据

11-19 104阅读
金角大王与银角大王可动人偶开启预定:超逼真还原童年记忆

金角大王与银角大王可动人

近日haoyutoys官

11-19 111阅读
LUIDA’S BAR推出《DQIII》合作菜单

LUIDA’S BAR推出《DQIII

为纪念HD-

11-19 122阅读
《模拟农场25》水稻种植终于实装 专业农户称赞超真实

《模拟农场25》水稻种植终

经典写实模拟农场游戏系列最新作《模

11-19 99阅读
小小蚁国礼包2023,小小蚁国蚁往无前礼包

小小蚁国礼包2023,小小蚁

小小蚁国是一款非常好玩的模拟经营策略

11-19 133阅读
原子之心展览馆四个学生所在位置详细介绍

原子之心展览馆四个学生所

在原子之心游戏的展览馆中,有一个寻找四

11-19 116阅读
原神5个战斗性隐藏成就攻略

原神5个战斗性隐藏成就攻

5个战斗性成就是原神须弥地区的隐藏任

11-19 115阅读