0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人机交互的未来 搜狗联合清华天工研究院推出ChoreoNet模型

脑极体 来源:脑极体 作者:脑极体 2020-08-24 11:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

声音与AI行为搭配在一起,会发生怎样的化学反应呢?这一话题,正在成为国内外AI研究比较热衷的新方向。

比如卡内基·梅隆大学和CMU机器人研究所,就在研究声音和机器人动作之间的相互作用;国内则从数字人入手,搜狗分身技术团队联合清华大学天工智能计算研究院贾珈老师团队,率先展开了音频驱动身体动作的研究。

近日二者共同发表的数字人技术论文《ChoreoNet: 基于舞蹈动作单元的音乐-舞蹈合成框架》,就被2020国际顶级盛会ACM Multimedia录用为长文。

作为计算机领域诺贝尔奖——图灵奖的评选机构,ACM(国际计算机学会Association for Computing Machinery)的业界地位不用赘述,旗下的ACM Multimedia也被认为是多媒体技术领域奥运级别的顶级盛会,论文接受率很低。

那么,能得到顶会的认可,这一新技术究竟有哪些开创性呢?

闻声起舞,“乐舞合成”是怎样实现的?

让数字人根据文本语义做出相对应的面部表情及肢体动作,目前已经有不少成熟的应用,比如AI合成主播。如果再能够跟随音频做出同步、自然的肢体反应,无疑会在多种场景中产生奇妙的化学反应。

不过,随声而动这件事的难度在于,背后需要解决的技术问题不少,比如:

传统音乐与舞蹈合成的方式是基线法,通过人体骨骼关键点的映射,但许多关键点难以捕捉和预测,就会出现高度冗余和噪声,导致合成结果的不稳定、动作节衔接不像真人。

后来,雅尔塔等学者也提出要通过AI的弱监督学习来解决上述问题,但由于缺乏对人类舞蹈经验知识的了解,依然会出现合成不够自然、情感表达不够流畅的问题。

另外,由于音乐片段比较长,背后伴随着成千上万的动作画面,需要智能体记住并映射这种超长的序列也是一大挑战。

搜狗及清华天工院研究团队所做的突破,就是将人类专业知识融入算法,提出了一个模仿人类舞蹈编排的程序ChoreoNet,来根据音乐生成动态优美连贯、非线性高度拟真的舞蹈。

简单来说,ChoreoNet是将专业舞者的各个动作单元与音乐旋律捕捉并数据化,然后让AI在其中寻找规律,知道在怎样的音乐节拍、旋律风格中应该做出怎样的舞蹈动作,进而形成连贯的动作轨迹。

其中,研究人员共突破了两个环节:

1.舞蹈知识化。用动作捕捉采集专业的人类舞者是如何根据音乐的节奏、旋律来编排动作的。研究人员收集了4种不同类型(恰恰、华尔兹、伦巴和探戈)的舞蹈数据,数个音乐节拍裁剪出一个编舞动作单元(CAUs) 相对应的片段,形成一个动作控制单元(CA),形成一个音乐与动作的映射序列。

2.之前采集的舞蹈动作只是人体骨骼关键点数据,怎样让它们之间的连续过渡更加自然呢?研究人员借助NLP语义理解,让AI可以根据积累的知识进行实时反应。利用GAN设计了一个运动生成模型,让AI可以绘制一些舞蹈动作,补上缺失的数据,从而实现舞蹈的平滑过渡,产生自然的效果。

实验结果证明,与基线法相比,ChoreoNet性能更好,可以生成持续时间较长的结构化控件,来生成与音乐匹配的动作,并使其自然连接、情感流畅。

在这一突破中,搜狗对音频驱动身体动作这一课题的敏锐感知,以及AI分身技术在身体动作及姿态生成方面的加成,无疑是领先技术能力与创新意识的绝佳组合。

持续领跑,搜狗与分身技术的不解之缘

可以看到,ChoreoNet的出现,既带来了人机交互能力的提升,也给机器学习融入了知识元素。这可以看做是搜狗“分身技术”的一次进阶,也侧面印证了搜狗以“自然交互+知识计算”为核心的AI技术版图,正在持续狂奔,也得以积蓄起不断引领技术方向的势能。

从2018年首创分身技术之后,搜狗的研发脚步从未停止,持续专注于如何以文本及音频更好驱动数字人的面部表情及唇动进行研究。相继在2D/3D数字人领域构建了音画同步、逼真的面部表情唇动生成及驱动能力。

如何能够让数字人更加自然并且富有表现力也是搜狗分身的重点研究方向,其中身体动作以及姿态的表达至关重要。在对数字人的面部驱动达到较高标准后,搜狗将研究重点从面部为主的驱动转到面部+动作的驱动,重点攻关如何让肢体动作更具自然表现力。如在今年5月推出的3D AI合成主播身上,不仅有经得起高清镜头考验的面部表现,同时实现了以文本语义为驱动的自如行走。

如今,ChoreoNet更进一步,实现了以音频对AI数字人进行实时驱动。搜狗在业内率先尝试并取得突破性研发结果的这一举动,更是一改只能由文本、语义驱动AI分身面部+动作的现状,为行业带来了更多的创新可能,搜狗的分身技术理想与实力也跃然纸上。

不断打造可视化、能自然交互的AI数字人,搜狗到底想做什么?

人机交互的未来,与搜狗的技术远景

回归到企业战略层面,搜狗的AI理念是让AI赋能于人。通过人机协作,把人从重复性工作中解放出来,更好地解放社会生产力。比如AI主播,就可以让主持人不再困于朗读既定内容,可以投身于更具创造性的工作。当然,这一切都要从更自然的人机交互开始,完成一次次交流与触碰。

而此次ChoreoNet让数字人跟随音乐起舞,这个创意的突破不仅仅是技术上够炫酷,应用空间也非常巨大。

不出意外,搜狗很大可能会将该技术同3D数字人相结合,因为相较2D数字人,3D数字人的肢体灵活性、可塑性驱动更强,从而有更广泛的应用空间。音频驱动技术的加入,不仅能丰富搜狗3D数字人在新闻播报、外景采访的场景,更直接有助于突破融媒体领域、向娱乐、影视等领域落地进军。可以看到,基于视觉的人机交互会越来越成为主流,比如当前流行的智能客服、虚拟偶像等等,往往需要大量文本、语义的输入来进行推理与交互,虚拟偶像的动作也需要捕捉后由人工逐帧进行制作,而改为音频驱动可以更为直接地实现语音交流,节省制作/计算的步骤与成本。

此外,人类知识体系与机器学习的结合,让AI能力有极大的提升。通过垂直领域的知识数据进行训练和学习,从而提供更精准、可靠的服务,大大提升AI客服的接受度。

当然,音频驱动也可以生成更具人性化的个人秘书,帮助人减轻工作负担、提高效率的同时,通过音频识别与判断来实时反应,表现力更加丰富,让智能家居、服务机器人等更好地融入生活环境,在老人关怀、私人助理、儿童陪伴等等场景之中,扮演更积极的角色。

业内有个共识,一般情况下只有对日常生活和技术突破具有巨大影响潜力的研究项目,才会被ACM Multimedia通过和录取。从这个角度看,搜狗与清华天工院所做的工作,远远不只是学术上的突破那么简单。当全球科技巨头都在探索如何用多模态交互缔造新玩法、新功能的时候,搜狗已经向前迈出了让人眼前一亮的步伐。

让数字人更像人,就能更早地与人类达成亲密无间的配合与协作,对于人类和AI来说,同样重要。也正由于此,世界顶级盛会才会投注认可与鼓励。下一次,搜狗会为数字人集齐怎样的能力呢?我们拭目以待。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人机交互
    +关注

    关注

    12

    文章

    1275

    浏览量

    57647
  • 搜狗
    +关注

    关注

    0

    文章

    91

    浏览量

    14232
  • 3D
    3D
    +关注

    关注

    9

    文章

    2993

    浏览量

    113861
  • 数字
    +关注

    关注

    1

    文章

    1700

    浏览量

    52378
  • 清华
    +关注

    关注

    0

    文章

    16

    浏览量

    18999
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    广电计量与长沙三大研究院达成战略合作

    11月26-27日,广电计量与长沙北斗产业安全技术研究院集团股份有限公司(简称“长沙北斗研究院”)、长沙量子测量产业技术研究院有限公司(简称“长沙量子研究院”)、湖南大学长沙半导体技术
    的头像 发表于 12-04 14:36 179次阅读

    眼电EOG人机交互会是未来交互的一种主流吗?

    HUIYING基于眼电的人机交互系统概述基于眼电(EOG)的人机交互系统(HMI)的研发源于对非侵入式、高精度且持久可穿戴的医疗辅助设备的需求。传统人机交互方式如触摸屏、操纵杆或基于肌电(EMG
    的头像 发表于 11-07 18:01 3551次阅读
    眼电EOG<b class='flag-5'>人机交互</b>会是<b class='flag-5'>未来</b><b class='flag-5'>交互</b>的一种主流吗?

    重构未来自适应人机交互的创新技术

    人机交互的概念可以追溯到工业革命时期,在当时机器开始取代人类劳动。然而,直到20世纪中叶,人机交互领域才受到广泛关注。人机界面(HMI)是人与机器之间交互的关键点,形成了用户可以控制复
    的头像 发表于 10-31 16:30 770次阅读
    重构<b class='flag-5'>未来</b>自适应<b class='flag-5'>人机交互</b>的创新技术

    模型驱动下的人机交互革命,“超拟真人互动” 让玩具读懂你的情绪

    ,全方位重构了智能硬件的人机交互范式,为行业提供了从技术底层到商业应用的完整路径。   从人机交互的技术演进逻辑来看,经历了文本交互(CUI)、图像交互(GUI)到自然语言多模态
    的头像 发表于 10-31 09:21 6127次阅读
    大<b class='flag-5'>模型</b>驱动下的<b class='flag-5'>人机交互</b>革命,“超拟真人互动” 让玩具读懂你的情绪

    广电计量携手南山研究院打造大健康产业新生态

    10月19日, “南山研究院南海四周年系列活动”在广东省南山医药创新研究院(简称“南山研究院”)成功举办。期间,南山研究院与广电计量等多家单位联合
    的头像 发表于 10-23 17:42 910次阅读

    人机交互:连接人类与数字世界的桥梁

    人机交互(Human-Computer Interaction, HCI)是研究人与计算机系统之间信息交流方式的学科,旨在优化用户体验,提高交互效率。随着人工智能、虚拟现实(VR)和物联网(IoT
    的头像 发表于 08-11 15:21 1702次阅读

    苏州高新区联合领军企业研究院到访智行者科技

    近日,苏州高新区联合领军企业研究院率苏州高新区内20余家专精特新企业负责人莅临智行者参观交流。
    的头像 发表于 07-23 17:13 927次阅读

    苏州唯理科技神经腕带肌电臂环人机交互演示

    人机交互
    jf_74911425
    发布于 :2025年07月08日 22:02:34

    恩智浦与吉利汽车研究院成立联合创新实验室,共创汽车智能化未来

    恩智浦半导体宣布,与吉利汽车研究院成立联合创新实验室,深化双方合作,聚焦智能化汽车技术,携手创新,助力吉利汽车智能化战略加速落地。 吉利汽车研究院常务副院长任向飞,恩智浦半导体执行副总裁兼高级模拟
    的头像 发表于 07-04 16:07 2304次阅读

    导远科技与清华大学无锡应用技术研究院达成合作

    近日,导远科技与清华大学无锡应用技术研究院(以下简称:研究院)达成合作。导远科技将提供高精度定位产品及解决方案,以支持研究院在L4级自动驾驶和人形机器人领域的技术研发及转化落地。
    的头像 发表于 06-12 16:34 815次阅读

    华宝新能与电子科技大学(深圳)高等研究院共建联合实验室

    为加速新能源技术创新与产业转化,助力国家“双碳”目标实现与粤港澳大湾区国际科创中心建设,近日,华宝新能与电子科技大学(深圳)高等研究院成立“华宝新能光伏储能电子联合实验室”,并在电子科技大学(深圳
    的头像 发表于 05-30 19:58 655次阅读

    清华牵头深开鸿参与:混合智能人机交互系统获批立项

    攻关任务,由工业和信息化部主责推进。 该项目的目标是研发一套面向混合智能的自然人机交互软硬件系统,旨在提升人机交互的自然性、智能性和高效性。通过结合清华大学在人工智能、人机交互等领域的
    的头像 发表于 01-23 16:33 1288次阅读

    鲲云科技与中国工业互联网研究院成立AI+安全生产联合实验室

    在 2025 年 1 月 14 日举行的智算创新研究院开业盛典上,鲲云科技与中国工业互联网研究院(以下简称“工联”)正式宣布联合成立“AI+安全生产
    的头像 发表于 01-14 18:01 1558次阅读

    启英泰伦新推出多意图自然说,重塑离线人机交互新标准!

    智能语音识别技术作为人机交互领域的一场革命性突破,正逐步重塑我们与智能设备的交互方式。近期,启英泰伦新推出了多意图自然说技术,进一步增强了人机交互的自然流畅度与操作便捷性。AI语音2.
    的头像 发表于 01-03 16:01 850次阅读
    启英泰伦新<b class='flag-5'>推出</b>多意图自然说,重塑离线<b class='flag-5'>人机交互</b>新标准!

    浪潮信息与智源研究院携手共建大模型多元算力生态

    近日,浪潮信息与北京智源人工智能研究院正式签署战略合作协议,双方将紧密合作,共同构建大模型多元算力开源创新生态。 此次合作旨在提升大模型创新研发的算力效率,降低大模型应用开发的算力门槛
    的头像 发表于 12-31 11:49 877次阅读