0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

第六代微软小冰发布,对话引擎、全双工语音和实时视觉相融合

Qp2m_ggservicer 来源:未知 作者:工程师郭婷 2018-07-31 15:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

第六代微软小冰正式发布,相比与以往的低调,此次微软小冰六代的发布会现场格外盛大。

小冰是微软亚洲研究院在2014年5月在中国推出的人工智能聊天机器人,也是知名的虚拟形象之一,如今已进化到第六代。此外,小冰还改头换面,彻底抛弃了以前的形象,并且由 2D 变成了 3D(如下图所示)。

第六代小冰核心对话引擎与交互感官的升级

小冰项目负责人李笛介绍,微软的目标就是让小冰成为一个高情商的机器人:从有趣、到有情绪、到能探测、到能占据主动。微软最新推出了全新的共感模型,它融合了共感模型的对话引擎、全双工语音和实时视觉三个类别的全新感官。

共感模型是一种基于生成模型的对话引擎。微软在去年的第五代小冰发布会上,首次正式完成生成模型的产品化,该模型的特点,通俗地说,就是小冰可以自创她的回应,而不需要从已有的对话语料库中检索而得。在生成模型的基础上,共感模型能够进一步提高小冰对于对话内容、领域和节奏的控制力,也即小冰可以通过自创回应,来牵引对话向她所希望的方向进行。微软宣布已经完成共感模型的测试,今日起,共感模型将在微软小冰所覆盖的五个国家正式上线。

在去年八月份举行的第五代小冰发布会上,微软宣布已完成全双工语音(Full Duplex Voice)交互感官的产品化,并在打电话和智能音箱设备两个场景中落地。

微软在今年发布会上宣布开始公开测试的这个新感官,是融合了共感模型的对话引擎、全双工语音和实时视觉三个类别的全新感官。微软在发布会现场放置了用于体验的测试设备。在该测试设备中,小冰可以通过视觉、语音的实时连续交互,指挥用户完成面容检测,并可在上述过程中进行开放域的对话。微软预计该感官将于一年内完成全部产品化工作。

第六代小冰在人工智能创造(AI Creation)方面的技术和产业化进展

微软认为,利用人工智能技术,学习人类并进行与人类质量水平相当的内容创造,是重要的、但目前尚未被行业注意到的未来趋势。目前,微软小冰已通过人工智能技术,实现了诗歌和金融等领域的文本内容生成、歌曲及有声读物等领域的有声内容生成,以及电视电台节目和可交互式电台等串流内容领域的生成工作,并分别完成了不同程度的落地。

2018年6月,微软(亚洲)互联网工程院成立人工智能创造事业部,旨在进一步推动微软小冰在人工智能创造这一内容领域的生产线搭建及产业化落地等工作。

微软还发布了新的第四版人工智能歌曲DNN模型,从而展示了微软在这一领域领先于世界的技术优势。与前三个版本的技术相比,第四版能够进一步快速合成与人类歌手质量相当的歌曲,并能够使人工智能小冰自由吸收多数人类歌手的演唱技巧,融会贯通,在演唱过程中达成更加成熟的演绎。此外,该技术还能够完整吸收并复制特定人类歌手的全部演唱特质(嗓音、韵律等),使小冰能完全代替原人类歌手完成新作品的创作。目前,微软在这一领域的技术研究和产品化,均居于全球领导地位。

微软宣布与多个领先的大众文化公司合作,已经完成部分人类歌手的人工智能化工作。在发布会上,微软演示了最新版本的小冰在唱歌上取得的成绩。

第六代小冰的Dual AI战略

小冰产品负责人彭爽解释道:“在这样一个半开放生态环境上,一方面我们会直接负责产品体验,也就是说我们会直接把控最具体的、直接和用户接触的产品细节,另一方面我们又不封闭在一个自有平台上,而是走出去接触,甚至直接融入到第三方平台上,这样就形成了一个完整的半开放生态环境。”

具体来说,微软会根据已有合作伙伴的实践,将该战略的实施分为三个部分:首先,微软提供小冰的整体框架能力,帮助合作伙伴平台的自有AI。其次,微软小冰作为该合作平台的辅助AI,融入该平台生态。第三,微软通过技术、产品与运营,围绕该合作平台的差异化特点,推出合作的应用和产品。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107353
  • 机器人
    +关注

    关注

    213

    文章

    30580

    浏览量

    219582
  • 人工智能
    +关注

    关注

    1813

    文章

    49735

    浏览量

    261530

原文标题:GGAI 头条 | 微软小冰6代出道:是时候表演一下惊人的唱歌本领了

文章出处:【微信号:ggservicerobot,微信公众号:高工智能未来】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    全双工网状网络通信:为大型区域系统提供动力!

    全双工网状网络通信实现真正的同步双向语音、八路并发传输、长达7公里 LoRa 链路、动态路由与自组织 SON 架构,提供低延迟、高可靠性与强覆盖的专业无线通信解决方案。
    的头像 发表于 12-04 10:30 146次阅读
    <b class='flag-5'>全双工</b>网状网络通信:为大型区域系统提供动力!

    全双工通信:技术原理、模式与系统分析

    全双工通信是现代通信的核心技术,支持信号在同一时间实现双向传输。本文深入解析全双工、半双工与单工的区别,介绍其工作原理(FDD频分双工、TDD时分
    的头像 发表于 12-03 09:43 4953次阅读
    <b class='flag-5'>全双工</b>通信:技术原理、模式与系统分析

    全双工畅聊无界,A09 语音处理模块重塑多场景通话体验

    芯慧创科技推出的A09语音处理模块采用专业声学DSP技术,实现全双工通话和深度降噪消回音功能。该模块免驱设计简化集成流程,支持4-5V宽电压供电和8KHZ采样率,适配智能家居、安防监护、办公会议等多
    的头像 发表于 12-01 09:50 298次阅读
    <b class='flag-5'>全双工</b>畅聊无界,A09 <b class='flag-5'>语音</b>处理模块重塑多场景通话体验

    消防员全双工通信:IDLH区域的必备生命线!

    消防员为何必须升级到全双工通信?本文深入解析全双工在 IDLH 环境中的关键作用,包括免提操作、Mesh 网状网络、AES 加密、LoRa 技术与降噪处理。了解它如何避免 PTT 延迟、Mayday
    的头像 发表于 11-28 12:00 527次阅读
    消防员<b class='flag-5'>全双工</b>通信:IDLH区域的必备生命线!

    瑞萨电子推出第六代DDR5 RCD,传输速率达9600MT/s

    电子发烧友网综合报道 日前,瑞萨电子宣布推出业界首款面向DDR5寄存双列直插式内存模块(RDIMM)的第六代(Gen6)寄存时钟驱动器(RCD),这款全新RCD率先实现了9600兆传输/秒(MT/s
    的头像 发表于 11-19 15:59 5174次阅读
    瑞萨电子推出<b class='flag-5'>第六代</b>DDR5 RCD,传输速率达9600MT/s

    900MHz全双工无线发射器参考设计

    900MHz全双工无线发射器参考设计
    发表于 10-30 15:31 3次下载

    900MHz全双工无线发射器参考设计原理图资料

    900MHz全双工无线发射器参考设计原理图
    发表于 10-30 15:24 7次下载

    基于MESH拓扑与降噪处理的全双工消防通信对讲方案

    SA628F22Pro全双工消防对讲系统通过​​8路实时通信+80dB智能降噪+MESH自组网​​三大核心技术,完美解决消防救援场景中的通信痛点。系统支持消防员在80-100dB极端噪声环境下实现
    的头像 发表于 09-19 09:48 2620次阅读
    基于MESH拓扑与降噪处理的<b class='flag-5'>全双工</b>消防通信对讲方案

    性能跃升,安全护航 ---- 澜起科技重磅发布全新第六代津逮® 性能核 CPU

    上海2025年8月15日 /美通社/ -- 在数字化转型浪潮与数据安全需求的双重驱动下,澜起科技今日重磅推出第六代津逮® 性能核 CPU (以下简称 C6P )。这款融合突破性架构、全栈兼容性
    的头像 发表于 08-15 13:09 546次阅读

    SA628F39 8W大功率自组网全双工无线语音模块V1

    SA628F39 8W大功率自组网全双工无线语音模块V1规格书
    发表于 04-23 09:26 1次下载

    全双工分轨语音数据集:让AI实现无缝对话

    全双工语音交互是一种允许设备在接收语音的同时并行处理和响应的技术。在传统半双工模式下,用户需要说完一句话后等待系统响应,交互效率低且体验不自然;而
    的头像 发表于 04-10 09:39 560次阅读
    <b class='flag-5'>全双工</b>分轨<b class='flag-5'>语音</b>数据集:让AI实现无缝<b class='flag-5'>对话</b>

    芯资讯|WT2605C蓝牙语音芯片:AI对话大模型赋能的智能交互新引擎

    厂商打造差异化竞争力的关键。广州唯创电子推出的WT2605C蓝牙语音芯片,凭借在线TTS、多引擎融合与极简开发特性,为智能硬件接入AI对话功能提供了“即插即用”的
    的头像 发表于 04-09 08:35 898次阅读
    芯资讯|WT2605C蓝牙<b class='flag-5'>语音</b>芯片:AI<b class='flag-5'>对话</b>大模型赋能的智能交互新<b class='flag-5'>引擎</b>

    小马智行第六代无人驾驶Robotaxi亮相香港国际机场

    小马智行进军又一国际大都会。近日,香港机场管理局宣布,载客无人车最快将在明年底前运行。期间,香港机场管理局向媒体展示了多款无人驾驶车辆,这些无人驾驶车型中的大部分已经或即将在机场投入使用。小马智行第六代无人驾驶Robotaxi受邀进行了展示。
    的头像 发表于 01-03 17:07 1239次阅读

    公网全双工对讲机与普通公网对讲机的区别

    对讲机种类多样,模拟和数字对讲基于无线电频点进行自组网通话,公网对讲机依托运营商物联网卡实现全球范围内的无线通讯。TIKOOL太酷信息全双工制式保留公网产品的距离和群组优势,支持上千路全双工通话。
    的头像 发表于 12-27 15:03 1377次阅读
    公网<b class='flag-5'>全双工</b>对讲机与普通公网对讲机的区别

    准确性超Moshi和GLM-4-Voice,端到端语音双工模型Freeze-Omni

    GPT-4o 提供的全双工语音对话带来了一股研究热潮,目前诸多工作开始研究如何利用 LLM 来实现端到端的语音语音(Speech-to-S
    的头像 发表于 12-17 10:21 1321次阅读
    准确性超Moshi和GLM-4-Voice,端到端<b class='flag-5'>语音</b><b class='flag-5'>双工</b>模型Freeze-Omni