0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数字人“复刻”主播爆火网络,接入大模型有望开启实时互动

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-10-22 07:54 次阅读

电子发烧友网报道(文/李弯弯)数字人(Digital Human / Meta Human)是运用数字技术创造出来的、与人类形象接近的数字化人物形象。近些年数字人发展迅速,在短视频、直播、金融、医疗等各行业上都有所应用。而且随着AI技术的发展,数字人的生成也越来越容易。

在不久前的深圳国际人工智能展,就有众多企业展示其数字人技术,包括出门问问、华为、元境科技、相芯科技等。在展会期间,电子发烧友网记者与现场工作人员进行了详细交流,发现当前数字人技术和应用已经越来越成熟。

可以说多国语言的数字人

此次展会上,华为重点展示了盘古大模型及其行业应用。在其展台上,记者注意到,华为也展示了其盘古数字人直播案例。基于华为云MetaStudio分身数字人,多语种泛化,一次训练匹配多个语种,及多语言克隆,多语言驱动等特点,万兴科技打造了AIGC“真人”出海营销神器万兴播爆视频版及直播版,结合盘古数字人大模型,其实现母语一次训练、多种语言流畅适配,助力企业轻松出海营销。

数字化时代,跨境电商成为了许多企业发展的新方向。然而,从文化差异、语言问题,再到市场洞察、营销引流、用户运营,跨境电商立足海外市场面临重重压力。但全链路AIGC创作的“万能”助理万兴播爆,解决了外籍演员难找、多语言难适配、制作周期长、成本居高不下等痛点,帮助企业大幅降本增效,轻松出海营销。

在今年7月的华为开发者大会2023上,华为宣布,基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务,旨在通过数字人服务和技术赋能,赋能千行百业提升数字内容创作体验和效率。

华为云MetaStudio数字内容生产线,基于华为云盘古基础大模型能力、渲染引擎和实时音视频能力,使用PB级的音视频数据进行训练,构建了数字人通用大模型,包括数字人形象、动作、表情、口型、声音等;每个用户还可以结合个人数据进行训练,构建自己的数字人个性化大模型。数字人生成后,用户通过文字、语音、视频等方式生产驱动向量信息,从而驱动数字人生成高清视频。

除了万兴播爆数字人直播案例之外,现场还展示了多家基于华为云的数字人案例。展会现场,工作人员告诉电子发烧友,目前市面上有很多通过图片、文字生成的数字人,看上去是平面的,并不立体,华为云MetaStudio分身数字人看上去跟真人很相似了。对于数字人直播能否现场互动的问题,现场工作人员表示,当前数字人直播基本难以做到现场互动,不过通过盘古大模型,后续会继续进行优化,使得数字人能够实时回答现场用户提出的部分问题。

展会现场,出门问问的展台吸引了不少观众驻足观看。出门问问成立于2012年,是一家以生成式AI与语音交互为核心的人工智能公司。该公司拥有领先的AI基础设施能力、前沿通用大模型能力(自研大模型「序列猴子」),以及丰富的垂直领域软硬结合的优化算法技术模块,是为数不多的同时服务于消费者、企业、创作者三大类不同群体的公司。

出门问问打造的AI数字人分身奇妙元,是一款专注于数字人短视频和直播服务的软件。包括多类型数字人和百种语言。据现场工作人员介绍,只需输入一段文本内容就能生成数字人视频,几秒钟就能完成,制作起来非常方便。

出门问问提供4种超前沿的克隆与定制服务,包括真人形象克隆、声音克隆、3D数字人定制和IP活化。比如真人形象克隆,可以实现真人形象1:1还原,只需录制一个5分钟视频,即可终身使用,输入文字数字人即可说话,表情神态接近真人。

奇妙元数字人视频制作非常简单,一键就可以将文本合成视频。相比于传统视频制作,奇妙元视频制作的优势在于:1、速度非常快,即使是制作一个真人口播视频,也仅需5分钟;2、数字人视频,可随时修改文本,随时生成;3、数字人更智能,一个数字人可说10国语言,500种声音。

如今数字人已经适用于各种应用场景,包括新闻播报、科普服务、培训视频、线上客服、带货种草、产品宣传、企业代言、金融宣传等。出门问问还提供形象和声音克隆,比如医生、律师等各种需要大量科普的职业,非常适合克隆自己的形象做数字人。

虚拟数字人涉及哪些前沿技术

在此次展会上,除了体验到快速生成数字人之外,我们也看到了数字人生成所涉及到的诸多技术。在参展的企业中,有一家提供全栈式虚拟数字人多场景应用解决方案服务的企业元境科技,该公司成立于2021年12月,由A股上市公司天娱数科战略投资。

元境科技以元享SaaS云平台、元趣AI为基础,通过计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机技术,并打通AI智能交互设备链接,快速打通AI在各个垂直场景中的应用,赋能各行业。元境科技核心技术团队从2016年开始布局虚拟人业务,拥有全球顶尖的动态光场扫描、三维重建算法、无标记点视觉捕捉、AI语音驱动等前沿技术,在北京总部拥有400平米XR动捕基地。

虚拟人生成SaaS云平台“元享”,是以底层数据为核心生成各类产品应用的架构平台。从元境科技提供的材料来看,其包含动态光场扫描建模、三位重建算法、AI驱动、XR动捕基地等技术。制作流程上:1、动态动态光场扫描真人;2、AI算法进行三维重建;3、AI动画绑定;4、渲染;5、AI驱动。

数据方面,元境科技拥有LightStage扫描建模技术,包括面部三位模型与重光照数据采集、亚微米级别超高精度输出等;专业级表演捕捉技术,包括400平米超大动捕棚、实时多人动捕、实现线上线下同步直播;3D视觉捕捉芯片技术,包括3D视觉深度引擎、3D传感和AI计算、SLAM实时跟踪建图引擎。

算法方面,表情学习模型:1、利用LightStage对被采集人员面部动态表情进行扫描数据采集;2、自研SaaS平台对采集数据进行深度学习;3、一键生成虚拟形象独有的动态表情数据库。保障在数字人生成内容时高度还原真人在说话时的面部神经反应与细微表情。

AI算法表情驱动:利用综合动捕方案与自研智能算法,在直播期间可实现面部细微表情的高速传递与智能修正。

元境科技基于全球领先的完备人工智能元鲸框架,推出了数字员工产品线,从数据采集、训练到上线,最快仅需10小时。支持创建拥有情感交互能力、专业技能和内容生产能力的数字人,目前已被应用于很多领域及场景中。

记者在展会现场还看到一家提供数字人服务的企业相芯科技,据现场工作人员介绍,他们公司不直接给C端用户提供生成数字人,而是为需要制作数字人的企业提供SDK,让这些企业能够基于他们的SDK快速的生成数字人。

相芯科技成立于2016年,由全球图形学顶级专家领衔,团队成员来自微软、苹果、华为等国际知名企业。自研的“数字人平台AvatarX”和“数字物平台ObjectX”可刻画人的音容笑貌,描绘物的流光溢彩,已服务数千家海内外企业,实现手机、电商、金融、汽车、互娱、融媒体、政务、文博等领域的规模化应用。

此次展会重点展示其AvatarX数字人平台,该平台依托独创的“虚拟数字人引擎”,为各行各业提供从虚拟形象生成、自定义、驱动、云渲染到应用于一体的跨平台数字人解决方案。用户可通过组合不同能力的SDK,打造更面向未来的,更具差异化的数字人应用产品和数宇资产,赋能元宇由生态布局。

相芯科技拥有全栈数字人技术和全品类数字人产品,包括卡通数字人、视频数字人、超写实数字人、仿真数字人、全真数字人。应用场景包括社交、短视频创作、智能客服、虚拟主播、品牌代言人、智能车载等。相芯科技数字人方案具有诸多优势,比如形象自由生成;支持面部驱动、身体驱动、手势识别、语音驱动;支持实时云端渲染,兼容第三方渲染引擎;不同能力SDK自由组合,帮助开发者快速构建不同应用程序等。

在通过AvatarX SDK DEMO进行体验的时候,可以发现,AI形象生成非常快,只需上传照片,便可一键生成还原度极高的虚拟形象。该平台还支持形象自定义,支持拼脸扭脸、身体捏形、服饰美妆等不同方式对虚拟形象自定义编辑。据介绍,云平台为用户提供海量素材自由选择搭配,并保持定期更新与维护。

根据其官网介绍,其AI面部驱动支持51个维度的面部表情检测与3个维度的舌头活动检测,实时人脸追踪技术实现真人与虚拟人表情同步,即使只有侧脸也能稳定使用。AI身体驱动,通过实时驱动跟踪技术,实现真人与虚拟人动作同步,共同支持全身31个人体点位、26根骨骼方向驱动,单手21个手部点位。AI语音驱动,通过文本或语音驱动虚拟人口型,集成TTS、ASR和NLP服务,支持多种音色自由切换支持虚拟形象情绪和表情设置,并能控制虚拟形象肢体动作。

此外,用户的虚拟形象不仅可以与其他虚拟形象互动,也可与虚拟场景、虚拟道具互动,支持多人聊天功能与视频远程共享功能并实现了WebRTC服务集成。

小结

当前已经有不少虚拟数字人出现在短视频创作、直播等场景中,然而可以看到,不少数字人在表情、动作、语言方面与真人相比还相差甚远,在直播中数字人也无法进行互动,体验还有待提高。虚拟数字人的制作涉及很多技术,包括数据采集、动作捕捉、AI驱动、渲染等,要想让数字人有更好的体验,每个技术环节都需要打磨好。另外大模型的接入也让数字人在直播中能够互动有了可能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数字人
    +关注

    关注

    0

    文章

    96

    浏览量

    1779
  • 大模型
    +关注

    关注

    2

    文章

    1516

    浏览量

    1115
收藏 人收藏

    评论

    相关推荐

    实时仿真板卡SimuCard*

    MATLAB、MWORKS生成的数学模型比特流文件部署到板卡的FPGA核心上,实现硬件在环强实时仿真。此外,借助仿真卡的高速接口,搭配多种类型、资源丰富的扩展子板,可对模拟、数字、混合信号、光电信号等全
    发表于 04-25 13:02

    汤姆猫正在推进申请接入OpenAI的Sora模型

    汤姆猫在互动平台上透露,公司正在积极推进申请接入OpenAI的Sora模型,并计划进行相关素材制作的测试。目前,汤姆猫尚未正式接入Sora模型
    的头像 发表于 03-05 10:20 340次阅读

    光猫接入酒店IPTV网络电视-兰州新区皇冠假日酒店基于光猫接入的酒店IPTV网络电视系统浅析

    光猫接入酒店IPTV网络电视系统,是北京海特伟业在“互联网+酒店”的行业创新应用,是集成现代网络技术和电视技术的新一代酒店智慧电视融合解决方案。以酒店局域网为传输载体,利用TCP/IP网络
    的头像 发表于 01-28 21:37 191次阅读
    光猫<b class='flag-5'>接入</b>酒店IPTV<b class='flag-5'>网络</b>电视-兰州新区皇冠假日酒店基于光猫<b class='flag-5'>接入</b>的酒店IPTV<b class='flag-5'>网络</b>电视系统浅析

    【爱芯派 Pro 开发板试用体验】人体姿态估计模型部署前期准备

    使用到,这里给大家举几个例子: 1、虚拟:大家看到B站直播时的“皮套”,通常通过一个2D live的形象展示一个动漫形象,然后和
    发表于 01-01 01:04

    用全志R128复刻自平衡赛车机器,还实现了三种不同的操控方式

    。 它,就是可以自平衡的赛车机器——B_ROBOT_100ASK 项目简介 本项目基于jjrobots的开源项目B-ROBOT EVO2进行复刻,与原开源项目不一样的地方是,作者将原本适配
    发表于 12-20 10:22

    数字孪生是什么?实时云渲染与数字孪生应用的爱恨情仇

    数字孪生是指针对建筑物或城市等物理实体所创建的3D模型,这些模型能够实时、连续地获取数据,并持续更新其功能和流程。 数字孪生的目的是为工程师
    的头像 发表于 12-01 17:23 344次阅读

    光纤网络接入和ADSL网络接入的利与弊

    电子发烧友网站提供《光纤网络接入和ADSL网络接入的利与弊.doc》资料免费下载
    发表于 10-25 09:05 0次下载
    光纤<b class='flag-5'>网络</b><b class='flag-5'>接入</b>和ADSL<b class='flag-5'>网络</b><b class='flag-5'>接入</b>的利与弊

    数字照片墙创新多媒体展厅互动体验

    信息数字化时代,展厅展览也不再局限于传统的图文展陈,数字照片墙作为一种新型展厅多媒体创意展项,倍受展厅设计师和观众的青睐。米禾数字深谙数字照片墙的魅力,通过
    的头像 发表于 08-14 10:01 840次阅读
    <b class='flag-5'>数字</b>照片墙创新多媒体展厅<b class='flag-5'>互动</b>体验

    HarmonyOS 4将正式接入 盘古大模型“诗与远方”同行

    余承东表示:“随着ai大型模型时代的到来,华为的盘古大模型(自然语言大型模型、视觉大模型、多模式模型)将有助于鸿盟操作系统的生态建设。”在盘
    的头像 发表于 08-07 11:02 1363次阅读

    华为发布盘古数字模型,或可达到“人人实现‘数字人’”

    下,“每个人都有望实现‘数字人’自由”。 据悉,盘古数字人通用大模型由华为云 MetaStudio 数字内容生产线构建而成。
    的头像 发表于 07-31 10:33 830次阅读

    基于光纤的接入网络——FTTH网络

    光纤到户网络(FTTH,fibre to thehome),是由一个基于光纤的接入网络,将大量的终端用户连接在一个网络中间点上,也就是通常所说的接入点或入网点(POP,point of
    发表于 07-13 10:38 1198次阅读
    基于光纤的<b class='flag-5'>接入网络</b>——FTTH<b class='flag-5'>网络</b>

    实时互动下视频QoE端到端轻量化网络建模

    视频或者实时互动场景下QoE体验的影响因素主要有媒体体验和互动体验。媒体体验分为视频体验和音频体验。视频体验包括画质、流畅度、播放设备等。音频体验则包括清晰度、流畅度、播放设备。除此之外还有连接视频和音频的音画同步。
    的头像 发表于 05-25 15:48 576次阅读
    <b class='flag-5'>实时</b><b class='flag-5'>互动</b>下视频QoE端到端轻量化<b class='flag-5'>网络</b>建模

    ESP8266接收UDP多消息的疑问求解

    我刚刚开始使用 AT 命令接口以 ESP-01 板的形式使用 ESP8266。 我已经成功地使一个简单的 HTTP 服务器工作,向来自浏览器的请求返回“Hello”。 但是我被试图获取 UPD 多
    发表于 05-12 06:12

    蓝牙多连接应用场景举例

    蓝牙多连接应用场景举例 一、蓝牙多连接的通信方式: 1-1、蓝牙MESH组网图: 1-2、蓝牙星型组网图; 二、两种方案的优劣势: 2-1、 MESH方式网络中的节点数量多,能够实现单播、组
    发表于 05-09 09:09

    众多企业宣布接入ChatGPT、GPT-4,虚拟数字有望迎来拐点

    屈晨曦等。 今年以来,以ChatGPT为代表的大模型大火,不少企业宣布,将虚拟数字接入ChatGPT、文心一言等,这意味着将为虚拟数字人装上最强AI大脑,虚拟人的发展将迎来拐点。 众
    的头像 发表于 05-01 06:12 2920次阅读
    众多企业宣布<b class='flag-5'>接入</b>ChatGPT、GPT-4,虚拟<b class='flag-5'>数字</b>人<b class='flag-5'>有望</b>迎来拐点