Azure AI Speech升级：仅需几秒音频即可生成逼真语音克隆-喜好网-记录每日喜好的科技时尚娱乐生活

Azure AI Speech升级：仅需几秒音频即可生成逼真语音克隆

4天前科技 3观看

摘要微软已升级Azure AI Speech服务，用户现在只需几秒钟的音频样本就能快速生成令人信服的语音复制品。个人语音功能于2024年5月21日正式发布。虽然之前版本已经相当出色，但需要一定的训练才能获得

微软已升级Azure AI Speech服务，用户现在只需几秒钟的音频样本就能快速生成令人信服的语音复制品。

个人语音功能于2024年5月21日正式发布。虽然之前版本已经相当出色，但需要一定的训练才能获得最佳效果。据微软介绍，该功能已升级为名为"DragonV2.1Neural"的全新零样本文本转语音模型，能够生成"更自然、更富表现力的语音"，并支持100多种语言的音频生成。

微软表示，与之前的模型相比，此次升级"在语音自然度方面带来了显著改进，提供更真实稳定的韵律，同时保持更好的发音准确性"。

这一原本就相当出色的系统现在变得更加准确，令人担忧。微软称："这项能力开启了广泛的应用场景，从定制聊天机器人语音到用演员原声为视频内容进行多语言配音，实现真正沉浸式的个性化音频体验。"

然而，这项技术也可能被恶意或欺骗性目的所利用，我们可以想象使用该服务制作的音频深度伪造内容将变得越来越难以识别。

但不必担心——除了添加水印以便更容易识别生成的音频（尽管人耳无法听出），微软坚持表示"所有客户都必须同意我们的使用政策，包括要求获得原始说话者的明确同意、披露所创建内容的合成性质，以及禁止冒充任何人或使用个人语音服务欺骗他人"。

微软并非首家提供仅需几秒音频即可克隆用户语音服务的公司。今年早些时候，总部位于帕洛阿尔托的AI初创公司Zyphra推出了一对开源文本转语音模型，声称只需几秒钟的音频样本。在我们的测试中发现，大约需要30秒的语音样本才能创建出令人毛骨悚然的准确效果。

近年来，AI语音克隆已成为一个严重问题，因为技术发展速度超过了安全保障措施。今年3月，《消费者报告》指出四家提供AI语音克隆软件的公司未能提供有意义的安全保障，而FBI也警告称，诈骗者正在使用美国政府高级官员的深度伪造语音进行大规模欺诈活动。

Q&A

Q1：Azure AI Speech的个人语音功能有什么新升级？

A：微软将Azure AI Speech升级为"DragonV2.1Neural"零样本文本转语音模型，只需几秒钟音频样本就能生成更自然、更富表现力的语音复制品，支持100多种语言，在语音自然度、韵律稳定性和发音准确性方面都有显著改进。

Q2：AI语音克隆技术存在哪些安全风险？

A：AI语音克隆可能被用于恶意或欺骗目的，包括制作难以识别的音频深度伪造内容。FBI已经警告诈骗者正在使用深度伪造的政府官员语音进行大规模欺诈活动，这项技术的发展速度已经超过了安全保障措施。

Q3：微软采取了哪些措施来防止AI语音克隆被滥用？

A：微软要求所有客户同意使用政策，包括必须获得原始说话者的明确同意、披露内容的合成性质、禁止冒充他人或欺骗用户。此外，生成的音频还会添加水印以便识别，尽管人耳无法直接听出。

展开全文

猜你感兴趣

小杨哥缺席，抖音还能玩转双11吗？

采写／尹冰雪‍编辑／万天南“

11-19 115阅读

有你吗比亚迪抽车中奖名单公布：

11月19日

11-19 115阅读

天玑9400性能之神！iQOO Neo10系列

今天，iQOO

11-19 97阅读

点名小杨哥、贾乃亮，美邦创始人不

11月1

11-19 115阅读

生成式AI热潮之下，应届毕业生的机

图片来源：由无界AI生成“互联网充

11-19 109阅读

9年前，那个娶了泰国“最尤

11-19 102阅读

悬疑探案剧《宋慈韶华录》

李乃文的新剧《三大队》还在热播

11-19 97阅读

百部青少年教育公益微电影

　　2024年11月9日，由泰安东升公益慈

11-19 97阅读

《大梦归离》迎来大结局，用

　　由爱奇艺出品，最世文化、奥羽工作

11-19 115阅读

马斯克赌大赢大部分广告

多位媒体高管透

11-19 102阅读

《这是我的战争》10周年纪

「妄想欢庆」——《这是我的战争》10周

11-19 122阅读

《模拟农场25》水稻种植终

经典写实模拟农场游戏系列最新作《模

11-19 92阅读

原子之心3826设施啁啾表全

啁啾表是原子之心游戏里面的一个特殊收

11-19 105阅读

饥荒无消耗驯服猪人的详细

猪人是饥荒游戏里面的特殊生物，因为数量

11-19 108阅读

原神林中遇变任务怎么做?

林中遇变是原神须弥地区魔神主线任务的

11-19 107阅读