0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

商汤科技推出实时语音驱动数字人技术SekoTalk

商汤科技SenseTime 来源:商汤科技SenseTime 2025-12-17 13:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在数字人技术蓬勃发展的今天,生成效率仍是行业面临的核心挑战。商汤科技凭借在生成式AI 与多模态交互领域的深厚积累,推出了实时语音驱动数字人技术——SekoTalk。

通过多方面的创新技术,SekoTalk显著提升了数字人视频的生成效率,在8卡服务器上可以达到25 fps的生成速度,首帧延迟低至3.5s,在业内率先实现了实时生成。同时,SekoTalk还能支持多人、多语言的口型精准匹配,和超长时的稳定生成。这一技术突破了数字人发展的性能瓶颈,为数字人的大规模、实时应用打开更多可能。

SekoTalk今年8月上线,应用在商汤Seko、如影数字人等产品中,已助力用户创作出数十万部作品,并诞生了全网播放量超2000万播放的爆款作品。

算法系统协同:

实现极致性价比突破

生成效率是数字人走向实用化的关键,而实时性又是生成效率的北极星。SekoTalk通过模型蒸馏,模型结构优化,以及模型与系统的协同设计,在保证生成质量的前提下,实现推理效率的跨越式提升。

与其它方案相比,SekoTalk展现出卓越的性价比优势:开源模型生成一段5s视频通常超过十分钟,商用闭源模型生成5s的视频通常也需1至10分钟不等。相比之下,SekoTalk在8卡服务器上可以达到25 fps的生成速度,即便将SekoTalk与多模态模型相结合,整体系统的首帧延迟也可低至3.5s。

Phased DMD分布匹配蒸馏技术,无限逼近base模型效果:

以往的扩散模型蒸馏经验发现,扩散模型低步数生成的质量受到等效模型容量的制约。而主流的SOTA视频生成模型已经证明混合专家(MoE)技术在扩散模型领域的巨大潜力:不增加推理开销的同时,增大等效模型容量,进而导致更强的性能表现。

然而,MoE技术在扩散模型蒸馏中的应用尚未得到探索。商汤科技团队发现,简单地将分布匹配蒸馏(DMD)应用到MoE模型中,会导致生成视频的运动效果和指令遵循能力下降。

为了解决这一问题,研究团队提出了Phased DMD技术,把去噪过程建模为多阶段的MoE模型。Phased DMD不仅原生支持MoE模型,而且对于非MoE的教师模型,该技术也可以将之蒸馏为MoE学生模型。

这一技术显著提升了蒸馏模型生成的动态效果和多样性,使SekoTalk推理开销在降低25倍的情况下,仍保持教师模型良好的肢体运动效果和情绪表现力。除了应用于SekoTalk,Phased DMD也对开源社区常用的基模型进行了蒸馏并贡献回开源社区,相关优势也得到开源社区的认可,进一步证明了Phased DMD的通用性和有效性。

LightX2V与模型协同设计,支持低资源部署:

LightX2V是商汤开源的行业首个能够达到实时视频生成的推理框架。在模型和系统设计之初,就让它们融入低比特量化感知训练、稀疏注意力等原生优化,配合自研“SPARSE+NVFP4+低比特通信”高效注意力算子,模型训练完成后可直接低资源部署。

从测试数据来看,在不同GPU硬件环境下,LightX2V均能实现SekoTalk 的高效推理,为不同场景的落地提供灵活支撑。

23455646-d501-11f0-8c8f-92fbcf53809c.png

声形同步:

多语言+多人场景口型精准匹配

传统数字人技术在处理多语言、多人交互的复杂场景时,常出现口型与语音匹配不准的问题。SekoTalk通过一系列创新设计,实现了从单人口形到多人互动的高度精准的声形同步。

多语言高效同步:在2D数字人生成领域,一些工作沿用了早期的wav2vec2系列的预训练语音编码器来驱动角色。商汤团队根据在3D数字人语音驱动(UniTalker)中积累的算法经验,发现语音编码器的选择对于数字人驱动效果有极大影响。

23a87e10-d501-11f0-8c8f-92fbcf53809c.png

为此,研究团队探究了包含wav2vec2,hubert,wavlm,whisper等多种语音编码器在2D数字人驱动中的性能表现,发现如果沿用wav2vec2系列的语音编码器,即使是多语言预训练的wav2vec2-large-xlsr-53,在英语口型驱动和多语言泛化性上的定量指标中也落后其他编码器。

通过细致的消融实验,SekoTalk使用了探究中表现最好的音频编码器,通过规模化的训练,SekoTalk在中英文、多种小语种、日常讲话、说唱等场景中上均取得了准确的驱动效果。

音视频帧率解耦,杜绝细节丢失:主流视频生成模型采用了“1+4N”时序压缩机制,为实现与与视频帧的严格同步,SekoTalk对音频处理分支进行了精细优化。它创新地将视频帧率(16-25fps)与语音特征帧率(50fps)解耦,避免了传统下采样放到带来的口型细节丢失,使得音频可以和任意帧率的视频在时序上对齐,保证音频与画面的高质量同步。

可支持中文/法语/日语/葡萄牙语/韩语等多语种语音驱动

多人场景高度可控:借助良好的模型泛化能力和创新的掩码注意力机制(Attention Mask),SekoTalk可在多人对话场景中,独立、精准地控制每个角色的口型与动作,输出自然流畅的群组互动效果,拓展了技术的适用场景和应用潜力。

高效能、低成本的语音模块:类似文生视频中常常借助文本条件的Classifier-Free Guidance(CFG)来提升视频生成质量,在数字人生成领域中,以往工作也借助这一做法,使用语音条件的CFG来提升口型驱动的准确性,然而这相比于单独文本条件生成视频又多出了50%的计算开销。另一方面,类似于文本条件的CFG通常伴随着生成画面过饱和的问题,语音条件的CFG在提升口型驱动准确性的同时,通常也带来夸张不自然的人脸画面。商汤团队认为,通过更好的语音注入模块的设计,可以更本质地解决这一问题。结合DiT的设计经验,研究团队在语音模块中也引入了Adaptive Layer Normalization(AdaLN),并且使用可学习参数的注入方式代替了Linear Projection,在保持表现力的前提下降低了计算开销。经过这些改进,SekoTalk模型无需借助语音条件的CFG,就可以达到准确的嘴形驱动。这一改进不仅降低了计算开销,同时也避免了语音条件的CFG带来的口型准确性和脸部画面自然性之间的取舍。

超长时稳定生成:

告别画面漂移与人物偏移

在生成长视频时,画面色彩漂移和人物ID不一致,一直是行业的重要挑战。SekoTalk提出混合参考图注入等方案,有效平衡动作多样性与画面稳定性。

24067a88-d501-11f0-8c8f-92fbcf53809c.png

混合参考图注入策略,兼顾“段内稳定”与“段外泛化”:通过在训练阶段随机选择片段内、外的参考图,并辅助标志位指示参考图来源,使模型同时掌握了“段内稳定”与“段外泛化”两种能力。在推理时灵活切换,有效兼顾了动作多样性与画面稳定性。

高低语义特征联合注入,加快模型收敛速度:采用“高语义特征+低语义特征”的双通道注入机制,利用不同层级的语义信息引导模型,这不仅加强了人物ID的一致性,还加速了模型的收敛。

分离式Patchify编码,高保真条件注入:将加噪视频、参考图、前序帧等不同类型的特征交给独立的Patchify分支处理,使模型注意力更容易区分并理解多源信息。这不仅增强了长视频生成中的人物一致性,还提升了续写的连续性与稳定性。

隐空间续写优化效率,保障流畅续写:在效率优化上,SekoTalk在时序维度上引入前序帧特征,通过直接取用上一生成片段末尾的隐空间特征,避免了传统方案中“解码-再编码”的冗余流程,并结合层级化KV缓存与因果注意力机制,在确保续写稳定性的同时,大幅提升了长视频生成的推理效率。

SekoTalk的技术价值已在实践中得到验证。其在线体验平台作为首个支持2人以上对口型、生成2分钟长视频的免费技术体验平台,已生成大量作品,SekoTalk模型也集成进入Seko、如影数字人等产品中使用。此外,SekoTalk实时版在情感陪伴、在线教育、专业咨询领域的实时交互案例,也展现了其推动数字人走向更自然、智能、实时的未来潜力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4052

    浏览量

    45620
  • 商汤科技
    +关注

    关注

    8

    文章

    597

    浏览量

    37340
  • 数字人
    +关注

    关注

    0

    文章

    159

    浏览量

    2545

原文标题:推理速度25fps,首帧延迟3.5s!商汤SekoTalk:让实时语音数字人更近一步

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤科技日日新Seko系列模型与寒武纪成功适配

    12月15日,商汤科技基于在生成式AI与多模态交互领域的技术积累,正式发布Seko2.0——行业首个多剧集生成智能体。该智能体在多剧集视频生成的一致性方面展现出显著优势,其背后依托的是商汤自研的日日新Seko系列模型,包括Sek
    的头像 发表于 12-17 14:06 88次阅读

    商汤科技联合创始王晓刚担任大晓机器董事长

    大晓机器将于12月18日正式亮相,重磅发布多项全球领先的技术与产品阵列,并将推出首个国内开源且实现商业应用的“开悟”世界模型3.0,与行业伙伴一同构建自主可控、开放共赢的产业体系。商汤
    的头像 发表于 12-08 11:31 355次阅读

    商汤科技牵头发布我国虚拟数字领域首项国家标准

    商汤科技作为牵头单位,主导完成了我国虚拟数字领域首项国家标准——《信息技术客服型虚拟数字通用
    的头像 发表于 11-21 10:55 284次阅读
    <b class='flag-5'>商汤</b>科技牵头发布我国虚拟<b class='flag-5'>数字</b><b class='flag-5'>人</b>领域首项国家标准

    商汤如影图片数字技术闪耀央视舞台

    依托商汤日日新大模型的多模态能力,只需上传一张人物照片,输入文字脚本或音频文件,AI 就能自动生成人物动态视频,并支持多种语言,实现了与真人几乎无差别的口型匹配、动作呼应和情绪表达。
    的头像 发表于 09-22 16:18 644次阅读

    语音机器交互系统:核心技术与应用挑战

          语音机器交互系统是融合多学科技术的复杂工程,其核心目标是实现与机器间的自然、流畅语音对话。该系统已广泛应用于智能客服、智能家
    的头像 发表于 09-02 11:08 588次阅读

    明远智睿SSD2351开发板:语音机器领域的变革力量

    接口则让语音机器可以连接到互联网,实时获取最新的信息,增强其智能性和交互能力。 在实际应用场景中,以智能客服语音机器人为例。SSD2351开发板可以
    发表于 05-28 11:36

    OBOO鸥柏丨AI数字触摸屏查询触控人脸识别语音交互一体机上市

    OBOO鸥柏丨AI数字触摸屏查询触控人脸识别语音交互一体机上市分析OBOO鸥柏品牌推出的AI数字
    的头像 发表于 05-21 20:22 733次阅读
    OBOO鸥柏丨AI<b class='flag-5'>数字</b><b class='flag-5'>人</b>触摸屏查询触控人脸识别<b class='flag-5'>语音</b>交互一体机上市

    详细介绍机场智能指路机器的工作原理

    免与行人发生碰撞,为旅客提供安全、舒适的引导服务。 智能交互系统 语音识别与理解 :智能指路机器利用先进的语音识别技术,将旅客输入的语音
    发表于 05-10 18:26

    大象机器携手进迭时空推出 RISC-V 全栈开源六轴机械臂产品

    全球80多个国家和地区。 近日,大象机器联合进迭时空推出全球首款RISC-V全栈开源六轴机器臂“myCobot 280 RISC-V”,为开发者打造全新的机器开源创新平台。 “myCobot 280
    发表于 04-25 17:59

    商汤科技助力如影数字超级直播间全新升级

    作为数字全行业首创,如影数字超级直播间可实现多模态智能运营,依托“商汤日日新SenseNova”多模态大模型,直播间具备智能选品、直播间
    的头像 发表于 04-23 16:31 854次阅读

    商汤科技与松应科技达成战略合作

    商汤科技2025技术交流日上,商汤科技与松应科技完成战略合作签约。
    的头像 发表于 04-16 17:47 980次阅读

    商汤科技与麒麟软件推出全国产化办公智能助手一体机解决方案

    在4月10日的商汤技术交流日上,商汤科技联合麒麟软件正式推出基于商汤日日新V6大模型和银河麒麟智算操作系统的全国产化“办公智能助手一体机解决
    的头像 发表于 04-15 16:48 940次阅读

    商汤科技推出SenseNova-5o,限时免费实时音视频对话服务

    商汤科技近日正式推出了其“日日新”融合大模型的交互版本——SenseNova-5o,并宣布即日起对外提供限时免费的实时音视频对话服务。 SenseNova-5o作为商汤科技的最新力作,
    的头像 发表于 01-20 15:11 1053次阅读

    NVIDIA技术助力Pantheon Lab数字实时交互解决方案

    本案例中,Pantheon Lab(万想科技)专注于数字技术解决方案,通过 NVIDIA 技术实现数字
    的头像 发表于 01-14 11:19 945次阅读

    商汤科技推出“日日新”融合大模型

    刚刚,商汤正式推出“日日新”融合大模型,领先实现原生融合模态,深度推理能力与多模态信息处理能力均大幅提升,并在两大权威评测榜单夺得第一,成为“双冠王”。
    的头像 发表于 01-10 15:59 1331次阅读