0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软在人工智能TTS语音合成技术上的最新进展

微软科技 来源:微软科技 作者:微软科技 2022-02-08 09:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

小编说:在这个技术快速更迭的时代,人工智能的可能性在逐渐拓宽。为了让大家可以更好的理解人工智能在智能语音方面的强大能力,今天小编就来详细为大家介绍微软在人工智能TTS语音合成(Text-to-Speech)技术上的一些最新进展。

不同对话场景

用户期待不同语气的拟人 AI 语音

TTS 语音已被越来越多地用于支持人机对话或机器辅助的日常交流——例如人与人之间对话的同声传译。在这些场景中,人们普遍期待能够实现更自然、更口语化的对话风格。我们不妨从以下三个典型场景中,来理解用户对于对话声音和风格的不同需求。

客服机器人:语气要自然、友好且专业

很多企业正在使用支持语音的聊天机器人或 IVR(互动式语音应答)系统,为客户带来相比传统方式更为高效、体贴的客户服务。例如国际移动通讯网络公司沃达丰就成功地创建了一个拥有自然语音的客服机器人 TOBi。Azure 的人工智能和自然语言处理功能赋予了 TOBi 鲜明的个性,使客户与 TOBi 之间的人机对话变得轻松自然,让客户更乐于与之交流。

设想这样的情景:在客户对 TOBi 报出姓名后,当 TOBi 需要了解客户的地址以便提供进一步服务时,TOBi 并不会生硬地接着发问:「请说出您的地址。」而是会这样表达:「嘿,好名字!接下来我还需要了解一下您住在哪里?」此时此刻,客户一定希望 AI 能够以听起来热情、友好、温暖,且又专业的声音来说出这句话。类似的需求不仅体现在 AI 解答客户疑问时,还适用于 AI 语音向客户打招呼,或表达共情态度时。个人助理:表情符号、重点强调要读懂

随着虚拟助手和虚拟现实技术的兴起,使用 Neural TTS 来支持闲聊和日常对话功能的客户数量正在不断增加。想要让 AI 与人类的对话更加自然,最主要的挑战之一在于如何让 AI 理解包含特殊字符在内的聊天用语——比如「呵呵」、「哈哈」、「哎哟」这类词汇。

这类表情符号,还有重复字母如「soooo good」——然后再以自然的语气提供即时响应。此外,让 AI 能使用不同的信息来表达相应情感,从而表现出对人类感受的共鸣感,也正在成为一种越来越普遍的用户需求。同声传译:翻译前后说话风格、语气要一致

语音互译是又一个对话式 AI 语音可支持的典型场景。Azure Neural TTS 已覆盖 110 多种不同语言,被应用于多种翻译场景中。不过,如何在翻译的同时保持讲话者的原始语气风格,一直都是个挑战。尤其是在较为随意的对话场景中,讲话者往往会使用语气上的细微差别来与听众建立情感联系。在这种情况下,如果 AI 语音可在提供同步翻译的同时,又能捕捉并理解讲话者的风格,就能使不同语言之间的对话依然生动且具有吸引力。

Azure Neural TTS

进化:多国语言皆可栩栩如生户

Sara(英语):更能表现自然情感的聊天机器人语音

Sara 是一个新近推出的美式英语音色,尤其擅长轻松的对话。「她」有着轻松自然的年轻女性声线,能够胜任各种需要聊天机器人的场景。Sara 拥有三种情绪:快乐、悲伤和气愤。她在阅读表情符号时,可以发出笑声、叹息或气愤语气,而且还能发出「太~(拉长语调)好了」这种人类特有的语调。播放下面的语音,亲耳感受一下效果。

下面这段录音,来自 Sara 作为聊天机器人与人类用户之间的自然对话。(此示例来自机器人和人类用户之间的闲聊,对话很随意,可能包含错误。)

除了预设的几种「情绪」,用户还可以通过 SSML 让 Sara 在常规交流、欢快、悲伤和愤怒等几种语气风格之间随意切换。

晓辰和晓颜(中文普通话):专为日常对话及客服场景而优化的全新中文语音

晓辰和晓颜是专为中文用户提供的普通话语音。其中晓辰擅长逼真的自然语气,晓颜与客户服务场景更匹配。晓辰和晓颜最显著的特征,在于能逼真模仿人类在日常场合下的交流。与朗诵、播音这类「严肃」场合不同,人们的日常对话中除了语气随意,韵律多变,而且常常出现词语发音不完整,句子语法不像课本那么严谨,且会出现重复、不完整、或者啰嗦等情况。借助先进的建模技术,晓辰和晓颜的 AI 语音能够学习并活用这些人类表达的「缺陷」,并逼真地还原这些「不完美」,使合成语音听起来更加真实亲切。在下面这段客服场景模拟对话中,晓颜是客服助理,晓辰是客户。您可以从中感受到他们如同真人一般轻松、自然的对话语气。

Nanami(日语):元气满满的东瀛女声

Nanami 是拥有动听女性声线的日语语音。「她」有着三种不同语音风格:聊天风格、客服风格和开朗风格,让合成语音在各种场景中都更具吸引力。

来听一听 Nanami 元气满满的声音:

现在就来感受

Azure Neural TTS 拟人语音的动人表现力吧!

微软不断倾听全球用户对于 Azure Neural TTS 在不同情况下语音发音准确性的反馈,以负责任的 AI 及公平、可靠和安全、隐私和保障、包容、透明、负责的六项人工智能准则为前提,进行了这次更新,为用户带来表达更自然、语义更清晰的语音体验。现在,微软的文本转语音可以支持超过 110 种语言的 270 多种 AI 语音。如果想亲身感受 Azure Neural TTS 的强大,就来 Azure 官网亲自体验吧!还有声音定制平台可以即刻为企业创建多种语言和风格的独特品牌语音。

原文标题:什么!跟我说话的竟然是AI!

文章出处:【微信公众号:微软科技】欢迎添加关注!文转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6753

    浏览量

    108085
  • AI
    AI
    +关注

    关注

    91

    文章

    41156

    浏览量

    302617
  • 人工智能
    +关注

    关注

    1820

    文章

    50335

    浏览量

    266973

原文标题:什么!跟我说话的竟然是AI!

文章出处:【微信号:mstech2014,微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    TTS语音合成芯片怎么选?2026年主流方案横向对比

    嵌入式产品里加入语音播报功能,是越来越多工程师面临的需求。但一旦开始选型,就会发现市面上的"语音方案"五花八门:有录音芯片、有TTS芯片、有语音
    的头像 发表于 03-26 15:21 687次阅读
    <b class='flag-5'>TTS</b><b class='flag-5'>语音</b><b class='flag-5'>合成</b>芯片怎么选?2026年主流方案横向对比

    国芯科技DPNPU新IP产品最新进展,单核支持0.5~4.8TOPS灵活算力配置

    国芯科技DPNPU新IP产品 最新进展,单核支持0.5~4.8TOPS 灵活算力配置   电子发烧友网综合报道 国芯科技发布公告称,其自主研发的神经网络处理器DPNPU(Dataflow
    的头像 发表于 01-09 09:19 5525次阅读
    国芯科技DPNPU新IP产品<b class='flag-5'>最新进展</b>,单核支持0.5~4.8TOPS灵活算力配置

    从协议到实践——EtherNet/IP与NetStaX的最新进展

    从协议到实践——EtherNet/IP与NetStaX的最新进展
    的头像 发表于 12-19 15:26 1713次阅读
    从协议到实践——EtherNet/IP与NetStaX的<b class='flag-5'>最新进展</b>

    微软与新思科技分享智能人工智能技术的行业影响

    2025年世界移动通信大会(MWC 2025)微软(Microsoft)与新思科技(Synopsys)两家科技巨头携手登台,分享了他们对人工智能(AI)发展的最新洞见、
    的头像 发表于 11-30 09:48 530次阅读

    芯科科技分享物联网领域的最新进展

    Labs(芯科科技)亚太区业务副总裁王禄铭、中国大陆区总经理周巍及台湾区总经理宝陆格就公司技术路线、产品策略及市场趋势回答了媒体提问。三位高管围绕安全认证、无线连接、边缘计算等议题,介绍了公司物联网领域的最新进展
    的头像 发表于 11-13 10:48 1941次阅读

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    如果你关注最新进展,可能已经知道 Nordic Semiconductor 收购了 Neuton.AI。 Neuton 是一家边缘 AI 公司,致力于使机器学习模型更易于访问。它创建的模型比竞争对手
    发表于 08-31 20:54

    TTS文字合成语音芯片的使用场景

    下触发固定的语音内容,而TTS文字合成语音播报芯片则不一样的,他可以通过文章直接生成语音播报,这一点是传统的语音芯片拍马也赶不上的,并且
    的头像 发表于 08-22 17:11 1158次阅读

    一颗TTS语音芯给产品增加智能语音播报能力

    一颗TTS语音芯片给产品增加智能语音播报能力 传统语音播报芯片可以设置一些固定的语音片段或者内容
    的头像 发表于 08-14 16:33 882次阅读

    从开发工程师视角看TTS语音合成芯片

    从开发工程师视角看TTS语音合成芯片 语音交互领域,TTS
    的头像 发表于 08-13 14:52 961次阅读

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    和生态体系带到使用者身边 ,让我们技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    和生态体系带到使用者身边 ,让我们技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能
    发表于 08-07 14:23

    CES Asia 2025同期低空智能感知与空域管理技术论坛即将启幕

    最新进展,探讨如何打破系统间的壁垒,实现不同系统之间的信息共享与协同工作,为未来城市空中交通的大规模商业化运营奠定基础。 人工智能技术的飞速发展,为空域动态管理带来了新的机遇。在这一议题下,与会者将深入探讨
    发表于 07-10 10:16

    Air8000 TTS开源,语音合成从此“零距离”!

    技术不应有围墙,创新需要共生长。Air8000宣布TTS应用源代码全面开放,开发者可自由定制语音风格、优化合成效果,让文字与声音的对话,不再受限于黑箱算法。
    的头像 发表于 07-03 16:33 735次阅读
    Air8000 <b class='flag-5'>TTS</b>开源,<b class='flag-5'>语音</b><b class='flag-5'>合成</b>从此“零距离”!

    英特尔持续推进核心制程和先进封装技术创新,分享最新进展

    近日,2025英特尔代工大会上,英特尔展示了多代核心制程和先进封装技术最新进展,这些突破不仅体现了英特尔技术开发领域的持续创新,也面向
    的头像 发表于 05-09 11:42 993次阅读
    英特尔持续推进核心制程和先进封装<b class='flag-5'>技术</b>创新,分享<b class='flag-5'>最新进展</b>

    百度AI领域的最新进展

    近日,我们武汉举办了Create2025百度AI开发者大会,与全球各地的5000多名开发者,分享了百度AI领域的新进展
    的头像 发表于 04-30 10:14 1485次阅读