0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

亚马逊云科技智能2D数字人方案为教育行业赋能

科技新思路 来源:科技新思路 作者:科技新思路 2023-08-30 14:28 次阅读

早在大语言模型如GPT-3.5等的兴起和被日渐广泛的采用之前,教育行业已经在AI辅助教学领域有过各种各样的尝试。在教育行业,人工智能技术的采用帮助教育行业更好地实现教学目标,提高教学质量、学习效率、学习体验、学习成果。例如,人工智能技术可以帮助教师更好地管理课堂,更好地识别学生的学习需求,更好地提供个性化的学习内容,更好地评估学生的学习成果,更好地提供学习支持。此外,人工智能技术还可以帮助教育行业更好地实现自动化,提高教育行业的效率和效果。总之,人工智能技术在教育行业的采用将会带来巨大的变化,为教育行业带来更多的发展机遇。

亚马逊科技也一直致力于提供更方便快捷,功能更强大的AI服务来支持教育行业客户的技术创新和业务创新。特别是Amazon Transcribe、Amazon Polly、Amazon Textract、Amazon Translate、Amazon Personalize、Amazon Rekognition、Amazon SageMaker等产品分别从自然语言处理、图形图像处理、模型研发部署等方面为教育行业提供了强有力的技术支持。

本文结合Amazon Transcribe、Amazon Polly,以及OpenAI的大语言模型和D-ID.com公司的2D数字人生成技术,介绍实现一个演示用的可语音对话的智能2D数字人设计的服务和具体的实现过程。

方案架构

为了能在一个统一的用户界面呈现语音输入、语音输出,以及2D数字人视频播放的整体效果,本方案选择Gradio框架实现WebUI的功能。呈现的WebUI如下:

用户可以通过直接输入文字内容或者使用麦克风输入语音,文字内容会使用Langchain附加上一定的上下文后送给OpenAI的GPT接口调用,语音输入会先调用Amazon Transcribe服务进行语音到文字的转换。经过GPT接口返回的文字内容,会调用AWS Polly形成语音文件,同时语音文件会作为D-ID.com提供的API渲染出2D的动态视频在前端自动展示和播放。

本方案中语音输入,语音输出,文字响应生成,以及数字人视频生成的功能都可以做自由的组合和替换。特别是对于OpenAI接口的调用可以置换为对自部署的大语言模型的调用,同时2D数字人视频的生成也可以考虑其他类似服务,如Heygen等。

具体实现

语音输入部分

Amazon Transcribe支持实时转录语音(流式传输),也可以转录Amazon S3存储桶中的语音文件(批处理)。Transcribe支持多达几十种的不同国家的语言。

Transcribe的实时转录能力非常的强大,处理流数据的同时,不断的利用之前的上下文进行结果的实时矫正,可以通过下面这个截图看到Transcribe实时转录输出的效果:

应答内容生成部分

在本方案里,应答内容的生成借助Langchain这个开源框架,调用基于OpenAI的coversation接口,同时使用memory库对对话的上下文做了5轮保存。在实际的客户场景里,可以考虑更丰富的方式来规范回复的内容的有效性和客观性。

比如可以使用Langchain的对话模版来对大模型的角色进行预设,或者使用Amazon Kendra,Amazon Opensearch这样的知识库构建和检索引擎,来进一步限制大模型应答的内容范围。

语音输出部分

Amazon Polly可以将文本转化为逼真的语音。它支持多种语言并且包含各种逼真的声音模拟,也包含中文普通话语音的模拟。

可以构建支持语音并能用于各种位置的应用程序,并选择适合客户的声音。Amazon Polly也支持语音合成标记语言(SSML),它是一种基于XML的W3C标准标记语言,适用于语音合成应用程序,且支持使用通用SSML标签进行断句、重音和语调。自定义Amazon SSML标签提供了独特的选项,例如,能够以新闻播音员说话风格发出某些声音。这种灵活性能够帮助您创建逼真的语音,从而吸引并维持听众的注意力。

在本方案中,可以使用Polly的实时语音生成接口,使用了中文普通话发音的VoiceID:Zhiyu,同时对特定的字符的发音做了定制化,这也是Polly一个非常有用的功能(Lexion)。

2D数字人视频的生成部分

这里可以使用一个外部第三方的SaaS服务。该服务由D-ID.com公司提供,对应的API可以直接接收文本输入和一张人脸图片来生成对应的动态播报视频,也可以接受语音文件加图片作为输入。

当你输入文本的时候,该API接口可以选择制定AWS的Polly服务中的不同的Voice ID来自动为你合成语音。

在本方案中,想体现中文的语音输出的效果,但是D-ID的API接口中暂时无法直接为中文文本指定中文的Voice ID。所以选择了先用Polly的API生成语音,再把语音和图片传送给D-ID的接口生成视频。

总结

今年是AIGC爆发的一年,也是教育行业所在的客户看到行业拐点的一年。在这个关键的历史性节点上,亚马逊云科技愿意和客户一起面对这些新的机会和挑战,以客户的需求为导向,帮助客户抓住AI浪潮带来的红利。

目前除了本文展示的2D数字人的方案,亚马逊云科技也可以帮助客户提供基于3D数字人或者其他3D数字形象的直播,互动等方案。同时亚马逊云科技也会引入更多的技术合作伙伴如跃迁引擎来丰富整个数字人,数字形象直播、点播、互动等场景的解决方案,助力更多的教育行业客户加速AI技术的采用和落地。

原发标题:近实时智能应答 2D 数字人搭建

审核编辑 黄宇


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26457

    浏览量

    264070
  • 人工智能
    +关注

    关注

    1776

    文章

    43869

    浏览量

    230618
  • 亚马逊
    +关注

    关注

    8

    文章

    2480

    浏览量

    82378
  • 数字人
    +关注

    关注

    0

    文章

    96

    浏览量

    1780
收藏 人收藏

    评论

    相关推荐

    老子:移动实物数字智能时代来临!

    时代的来临。1.强大的压缩技术为什么老子技术深受行业人士期待?特别是设计、3D游戏建模行业,眸瑞科技研发——老子技术,两个自动化(
    发表于 04-17 10:10

    “视网膜”重装来袭 AI技术视频业务场景

    、工业优化、航空调度等全局能力一体的ET大脑,将人工智能于生活中的各处场景。阿里解决方案
    发表于 01-09 15:12

    基于人工智能的创新教学平台建设

    技能教育。然而,在人工智能时代,不仅需要“技”,更需要“”。那些易于教授和检验的技能,正在或者将要被数字化。人工智能在孕育国内众多新兴产业
    发表于 04-16 15:15

    AI教育 ROOBO“童秘”平台及布丁迷你豆同期发布

    揭开了童秘儿童智能平台(以下简称“童秘”)的神秘面纱。在儿童教育机器业务量越来越大的同时,童秘从ROS.AI中孕育出来。该平台能够为儿童教育机器
    发表于 08-05 09:27

    筷捷SaaS平台:助力企业上数字经济

    特色产业园区项目。并且,筷捷的年用户量正保持30%以上的增速发展。  筷捷,助力企业上数字经济。  FEC筷捷产品介绍:  办公S
    发表于 08-28 13:54

    机智提供的智能照明方案简单介绍

    、wifi、GPRS等常见通讯方式进行智能照明产品连接2. 硬件方案:机智可提供照明硬件方案(含通信)3. 软件开发:可使用机智
    发表于 09-03 10:42

    如何同时获取2d图像序列和相应的3d

    如何同时获取2d图像序列和相应的3d?以上来自于谷歌翻译以下为原文How to obtain the sequence of 2d image and corresponding
    发表于 11-13 11:25

    ZWS-CAN智慧如何工程机械?

    ZWS-CAN智慧如何工程机械?ZWS-CAN智慧云系统演示
    发表于 03-01 07:49

    OpenHarmony技术日探讨教育发展,聚焦开源人才培养

    ,结合课程教材、实验实训以及企业实践,将行业应用中的智能家居、智慧办公、智慧农业等多种解决方案场景转化为教学案例,以企业实践教学培养。(
    发表于 04-29 10:52

    AI“电子哨兵”推动城市的智能化和数字化进程(附“电子哨兵”方案

    机器等,通过视频采集和数据处理完成监控和预警的作用。 AI的“电子哨兵” AI的 “电子哨兵”,又称“
    发表于 06-28 16:42

    天使,科技智造:华秋第八届硬创赛与亚马逊科技达成战略合作

    、技术领先、服务丰富、应用广泛而享誉业界。亚马逊科技可以支持几乎上任意工作负载。亚马逊科技目前提供超过 200 项全功能的服务,涵盖计
    发表于 07-01 15:33

    2D执行器在X/Y 2D空间中移动微型机器

    描述2D 执行器在 X/Y 2D 空间中移动微型机器有区别:- 我正在使用另一个移动轨道配置- 控制是三相单极对四相双极- 我的机械手 (mBot) 使用 4 个磁铁并且不悬浮- 对于一维移动,我
    发表于 07-25 06:33

    安全、快速、稳定,华为CDN中小企业数字化发展

    安全、快速、稳定,华为CDN中小企业数字化发展安全、快速、稳定,华为CDN
    发表于 10-25 14:40

    千行百业数字化转型,OpenHarmony生态新成果即将亮相HDC2022

    、76款开发板/模组和74款商用设备,已经成为全球智能终端操作系统领域中一股不可忽视的开源力量。多元行业论坛 精彩前沿对话 丰富生态展区,OpenHarmony各行各业
    发表于 11-02 12:03

    智慧教育解决方案创百智能科技

    ,满足现代智能教育的需求。4、内嵌WIFI、蓝牙等无线通讯,可进行互联网连接,可实现移动教育。5、支持USB3.0,提供高速数据传输。6、支持直接存储和SSD闪存,保证多媒体数据的快速加载。二、软件
    发表于 02-14 10:04