0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数字人“复刻”主播爆火网络,接入大模型有望开启实时互动

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-10-22 07:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)数字人(Digital Human / Meta Human)是运用数字技术创造出来的、与人类形象接近的数字化人物形象。近些年数字人发展迅速,在短视频、直播、金融、医疗等各行业上都有所应用。而且随着AI技术的发展,数字人的生成也越来越容易。

在不久前的深圳国际人工智能展,就有众多企业展示其数字人技术,包括出门问问、华为、元境科技、相芯科技等。在展会期间,电子发烧友网记者与现场工作人员进行了详细交流,发现当前数字人技术和应用已经越来越成熟。

可以说多国语言的数字人

此次展会上,华为重点展示了盘古大模型及其行业应用。在其展台上,记者注意到,华为也展示了其盘古数字人直播案例。基于华为云MetaStudio分身数字人,多语种泛化,一次训练匹配多个语种,及多语言克隆,多语言驱动等特点,万兴科技打造了AIGC“真人”出海营销神器万兴播爆视频版及直播版,结合盘古数字人大模型,其实现母语一次训练、多种语言流畅适配,助力企业轻松出海营销。

数字化时代,跨境电商成为了许多企业发展的新方向。然而,从文化差异、语言问题,再到市场洞察、营销引流、用户运营,跨境电商立足海外市场面临重重压力。但全链路AIGC创作的“万能”助理万兴播爆,解决了外籍演员难找、多语言难适配、制作周期长、成本居高不下等痛点,帮助企业大幅降本增效,轻松出海营销。

在今年7月的华为开发者大会2023上,华为宣布,基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务,旨在通过数字人服务和技术赋能,赋能千行百业提升数字内容创作体验和效率。

华为云MetaStudio数字内容生产线,基于华为云盘古基础大模型能力、渲染引擎和实时音视频能力,使用PB级的音视频数据进行训练,构建了数字人通用大模型,包括数字人形象、动作、表情、口型、声音等;每个用户还可以结合个人数据进行训练,构建自己的数字人个性化大模型。数字人生成后,用户通过文字、语音、视频等方式生产驱动向量信息,从而驱动数字人生成高清视频。

除了万兴播爆数字人直播案例之外,现场还展示了多家基于华为云的数字人案例。展会现场,工作人员告诉电子发烧友,目前市面上有很多通过图片、文字生成的数字人,看上去是平面的,并不立体,华为云MetaStudio分身数字人看上去跟真人很相似了。对于数字人直播能否现场互动的问题,现场工作人员表示,当前数字人直播基本难以做到现场互动,不过通过盘古大模型,后续会继续进行优化,使得数字人能够实时回答现场用户提出的部分问题。

展会现场,出门问问的展台吸引了不少观众驻足观看。出门问问成立于2012年,是一家以生成式AI与语音交互为核心的人工智能公司。该公司拥有领先的AI基础设施能力、前沿通用大模型能力(自研大模型「序列猴子」),以及丰富的垂直领域软硬结合的优化算法技术模块,是为数不多的同时服务于消费者、企业、创作者三大类不同群体的公司。

出门问问打造的AI数字人分身奇妙元,是一款专注于数字人短视频和直播服务的软件。包括多类型数字人和百种语言。据现场工作人员介绍,只需输入一段文本内容就能生成数字人视频,几秒钟就能完成,制作起来非常方便。

出门问问提供4种超前沿的克隆与定制服务,包括真人形象克隆、声音克隆、3D数字人定制和IP活化。比如真人形象克隆,可以实现真人形象1:1还原,只需录制一个5分钟视频,即可终身使用,输入文字数字人即可说话,表情神态接近真人。

奇妙元数字人视频制作非常简单,一键就可以将文本合成视频。相比于传统视频制作,奇妙元视频制作的优势在于:1、速度非常快,即使是制作一个真人口播视频,也仅需5分钟;2、数字人视频,可随时修改文本,随时生成;3、数字人更智能,一个数字人可说10国语言,500种声音。

如今数字人已经适用于各种应用场景,包括新闻播报、科普服务、培训视频、线上客服、带货种草、产品宣传、企业代言、金融宣传等。出门问问还提供形象和声音克隆,比如医生、律师等各种需要大量科普的职业,非常适合克隆自己的形象做数字人。

虚拟数字人涉及哪些前沿技术

在此次展会上,除了体验到快速生成数字人之外,我们也看到了数字人生成所涉及到的诸多技术。在参展的企业中,有一家提供全栈式虚拟数字人多场景应用解决方案服务的企业元境科技,该公司成立于2021年12月,由A股上市公司天娱数科战略投资。

元境科技以元享SaaS云平台、元趣AI为基础,通过计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机技术,并打通AI智能交互设备链接,快速打通AI在各个垂直场景中的应用,赋能各行业。元境科技核心技术团队从2016年开始布局虚拟人业务,拥有全球顶尖的动态光场扫描、三维重建算法、无标记点视觉捕捉、AI语音驱动等前沿技术,在北京总部拥有400平米XR动捕基地。

虚拟人生成SaaS云平台“元享”,是以底层数据为核心生成各类产品应用的架构平台。从元境科技提供的材料来看,其包含动态光场扫描建模、三位重建算法、AI驱动、XR动捕基地等技术。制作流程上:1、动态动态光场扫描真人;2、AI算法进行三维重建;3、AI动画绑定;4、渲染;5、AI驱动。

数据方面,元境科技拥有LightStage扫描建模技术,包括面部三位模型与重光照数据采集、亚微米级别超高精度输出等;专业级表演捕捉技术,包括400平米超大动捕棚、实时多人动捕、实现线上线下同步直播;3D视觉捕捉芯片技术,包括3D视觉深度引擎、3D传感和AI计算、SLAM实时跟踪建图引擎。

算法方面,表情学习模型:1、利用LightStage对被采集人员面部动态表情进行扫描数据采集;2、自研SaaS平台对采集数据进行深度学习;3、一键生成虚拟形象独有的动态表情数据库。保障在数字人生成内容时高度还原真人在说话时的面部神经反应与细微表情。

AI算法表情驱动:利用综合动捕方案与自研智能算法,在直播期间可实现面部细微表情的高速传递与智能修正。

元境科技基于全球领先的完备人工智能元鲸框架,推出了数字员工产品线,从数据采集、训练到上线,最快仅需10小时。支持创建拥有情感交互能力、专业技能和内容生产能力的数字人,目前已被应用于很多领域及场景中。

记者在展会现场还看到一家提供数字人服务的企业相芯科技,据现场工作人员介绍,他们公司不直接给C端用户提供生成数字人,而是为需要制作数字人的企业提供SDK,让这些企业能够基于他们的SDK快速的生成数字人。

相芯科技成立于2016年,由全球图形学顶级专家领衔,团队成员来自微软、苹果、华为等国际知名企业。自研的“数字人平台AvatarX”和“数字物平台ObjectX”可刻画人的音容笑貌,描绘物的流光溢彩,已服务数千家海内外企业,实现手机、电商、金融、汽车、互娱、融媒体、政务、文博等领域的规模化应用。

此次展会重点展示其AvatarX数字人平台,该平台依托独创的“虚拟数字人引擎”,为各行各业提供从虚拟形象生成、自定义、驱动、云渲染到应用于一体的跨平台数字人解决方案。用户可通过组合不同能力的SDK,打造更面向未来的,更具差异化的数字人应用产品和数宇资产,赋能元宇由生态布局。

相芯科技拥有全栈数字人技术和全品类数字人产品,包括卡通数字人、视频数字人、超写实数字人、仿真数字人、全真数字人。应用场景包括社交、短视频创作、智能客服、虚拟主播、品牌代言人、智能车载等。相芯科技数字人方案具有诸多优势,比如形象自由生成;支持面部驱动、身体驱动、手势识别、语音驱动;支持实时云端渲染,兼容第三方渲染引擎;不同能力SDK自由组合,帮助开发者快速构建不同应用程序等。

在通过AvatarX SDK DEMO进行体验的时候,可以发现,AI形象生成非常快,只需上传照片,便可一键生成还原度极高的虚拟形象。该平台还支持形象自定义,支持拼脸扭脸、身体捏形、服饰美妆等不同方式对虚拟形象自定义编辑。据介绍,云平台为用户提供海量素材自由选择搭配,并保持定期更新与维护。

根据其官网介绍,其AI面部驱动支持51个维度的面部表情检测与3个维度的舌头活动检测,实时人脸追踪技术实现真人与虚拟人表情同步,即使只有侧脸也能稳定使用。AI身体驱动,通过实时驱动跟踪技术,实现真人与虚拟人动作同步,共同支持全身31个人体点位、26根骨骼方向驱动,单手21个手部点位。AI语音驱动,通过文本或语音驱动虚拟人口型,集成TTS、ASR和NLP服务,支持多种音色自由切换支持虚拟形象情绪和表情设置,并能控制虚拟形象肢体动作。

此外,用户的虚拟形象不仅可以与其他虚拟形象互动,也可与虚拟场景、虚拟道具互动,支持多人聊天功能与视频远程共享功能并实现了WebRTC服务集成。

小结

当前已经有不少虚拟数字人出现在短视频创作、直播等场景中,然而可以看到,不少数字人在表情、动作、语言方面与真人相比还相差甚远,在直播中数字人也无法进行互动,体验还有待提高。虚拟数字人的制作涉及很多技术,包括数据采集、动作捕捉、AI驱动、渲染等,要想让数字人有更好的体验,每个技术环节都需要打磨好。另外大模型的接入也让数字人在直播中能够互动有了可能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数字人
    +关注

    关注

    0

    文章

    158

    浏览量

    2544
  • 大模型
    +关注

    关注

    2

    文章

    3460

    浏览量

    4978
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工业互联网平台支持哪些网络接入

    工业互联网平台支持多种网络接入方式,以适应不同场景下的设备连接和数据传输需求,具体包括以下类型: 一、有线网络接入 工业以太网 技术标准 :PROFINET、EtherCAT等,通过硬
    的头像 发表于 10-16 11:50 184次阅读
    工业互联网平台支持哪些<b class='flag-5'>网络</b><b class='flag-5'>接入</b>

    【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦!

    噪,无惧嘈杂环境 云端接入小聆AI,轻松实现个性化定制 搭载领先大模型全链路技术:小聆AI 智能语音交互方案 集成情绪感知与表达 :支持情感发音;支持声音复刻,实现个性化定制 独家人
    发表于 09-25 11:47

    基于神经网络数字预失真模型解决方案

    在基于神经网络数字预失真(DPD)模型中,使用不同的激活函数对整个系统性能和能效有何影响?
    的头像 发表于 08-29 14:01 3108次阅读

    科技云报到:坏了!数字真要改百业了

    科技云报到:坏了!数字真要改百业了
    的头像 发表于 08-14 14:41 466次阅读

    绿氢系统篇丨PEM电解槽模型交流接入模式仿真验证

    电解槽模型通过离线验证和实时仿真验证两种方式,对该模型在交流接入模式的可行性进行全面验证,可为 PEM 电解槽的实际应用提供理论和实践依据。 一、 PEM 质子交换膜(Proton
    发表于 06-05 18:55

    商汤科技助力如影数字超级直播间全新升级

    作为数字全行业首创,如影数字超级直播间可实现多模态智能运营,依托“商汤日日新SenseNova”多模态大模型,直播间具备智能选品、直播间
    的头像 发表于 04-23 16:31 846次阅读

    1:1 复刻真实形象!华为云 Flexus 数字门槛更低、效果更佳

    数字作为连接用户与虚拟世界的关键交互载体,正逐渐渗透到各个领域,展现出无限广阔的应用前景。从教育领域中智能授课的数字教师,到医疗健康领域里耐心科普的数字医生,再到出现在新闻播报中的
    的头像 发表于 03-10 11:11 2852次阅读
    1:1 <b class='flag-5'>复刻</b>真实形象!华为云 Flexus <b class='flag-5'>数字</b><b class='flag-5'>人</b>门槛更低、效果更佳

    数字加速奔向大众生活!华为云 Flexus 数字完美契合中小企业需求

    近年来,由于人工智能、虚拟现实等技术的发展,以虚拟、虚拟偶像、虚拟员工为代表的数字频繁“现身”金融、文娱、互联网等各个行业,进一步释放商业价值。
    的头像 发表于 03-10 10:35 2806次阅读
    <b class='flag-5'>数字</b><b class='flag-5'>人</b>加速奔向大众生活!华为云 Flexus <b class='flag-5'>数字</b><b class='flag-5'>人</b>完美契合中小企业需求

    超低门槛体验华为云 Flexus 数字,让数字技术不再“高高在上

    。另一方面也是从官方层面对数字给予认可,将助推数字市场的进一步发展。 新闻传媒行业是数字
    的头像 发表于 03-10 10:33 2827次阅读
    超低门槛体验华为云 Flexus <b class='flag-5'>数字</b><b class='flag-5'>人</b>,让<b class='flag-5'>数字</b><b class='flag-5'>人</b>技术不再“高高在上

    九联科技AI解决方案接入AI大模型

    在人工智能技术迅猛发展的今天,九联科技凭借其领先的物联网通信模组技术和创新的AI应用方案,再次走在了行业的前沿。日前,九联科技AI解决方案已成功接入AI大模型,为用户带来了前所未有的智能互动体验。
    的头像 发表于 03-07 17:21 960次阅读

    普渡机器接入DeepSeek满血版模型

    自2月20日起,普渡机器正式接入DeepSeek满血版模型,机器智能语音交互能力迎来智能化升级里程碑!此次升级中,首批搭载该模型的贝拉P
    的头像 发表于 02-20 16:50 1348次阅读

    惠伦晶体全面接入DeepSeek等大模型技术

    当下,AI技术正在有力地重塑产业格局,deepseek在网络上热度居高不减。惠伦晶体现已通过数字化平台(飞书)全面接入Deepseek、豆包等大模型技术,全力加速生产
    的头像 发表于 02-18 13:40 819次阅读

    一汽大众全面接入DeepSeek大模型

    近日,一汽-大众大众品牌宣布其新媒体AI内容运营数字化平台已全面接入DeepSeek大模型,标志着该品牌正式迈入智能化营销的全新阶段。
    的头像 发表于 02-11 15:49 713次阅读

    润和软件AIRUNS智能中枢平台接入DeepSeek大模型

    近日,江苏润和软件股份有限公司(以下简称“润和软件”)自主研发的AIRUNS智能中枢平台已全面接入国内领先的大模型DeepSeek,为企业提供从模型训练、推理优化到业务落地的全栈式服务,开启
    的头像 发表于 02-07 11:06 1800次阅读
    润和软件AIRUNS智能中枢平台<b class='flag-5'>接入</b>DeepSeek大<b class='flag-5'>模型</b>

    NVIDIA技术助力Pantheon Lab数字实时交互解决方案

    本案例中,Pantheon Lab(万想科技)专注于数字技术解决方案,通过 NVIDIA 技术实现数字实时对话与客户
    的头像 发表于 01-14 11:19 936次阅读