0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

罗永浩数字人刷屏背后,文心大模型成为直播行业的“剧本总导演”

脑极体 来源:脑极体 作者:脑极体 2025-06-19 09:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZPGhSsWeAF1IDAAhs5qhiAA0137.jpg

《日常生活中的自我呈现》一书中,欧文・戈夫曼将戏剧表演引入社会学。他提出,人们在日常互动里,会依照预设的“剧本”(即社会规范),借助行为管理进行表演,在他人心中留下良好印象。

按照这个理论,数字人直播总被吐槽,原因就是数字人的演技太差,无法呈现出真人主播一样的观感,表情僵硬、手势不自然,无法给大众留下好印象。

就在最近,数字人主播界突然出现了一位演技实力派——罗永浩。罗永浩数字人在百度电商的首场直播,以长达连续近7小时的高强度直播,实时解答弹幕问题,动辄输出“罗式段子”,还与助播朱萧木互相抛梗接梗,刷新了大众心中数字人的观感。

甚至有人问老罗,“是不是你在扮演数字人”,简直倒反天罡。

wKgZO2hSsWiAEmaOAAkuJaKrGvA805.jpg

难辨真假、技惊四座的罗永浩数字人,到底是怎么实现的?6月17日的百度AI开放日慧播星专场现场,百度集团副总裁吴甜,揭秘了罗永浩数字人背后的技术秘密。最关键的就是,基于文心大模型4.5T的“剧本”生成与多模协同。

618硝烟正燃,而一场以AI大模型为核心驱动的电商效率革命,正拉开序幕。

wKgZPGhSsWiABtxPAAGrEKxLdYQ699.jpg

大家有没有这样的经历:

评论区的弹幕太多,留言总是得不到主播的回复;

想看直播,但真人主播已经下班了,错过了专属红包和优惠;

自己直播带货,但一面对镜头就紧张,直播效果不尽如人意;

等头部主播来助农直播,还得看对方的差旅安排和时间调配……

数字人被视为解决人力局限、实现全天候直播的理想方案。然而,以往的数字人一直无法惟妙惟肖地饰演真人主播,槽点主要集中在几个方面:

演得不像。数字人的表情、手势与肢体细节与文案对不上,产生“恐怖谷”效应,让观众感到诡异。

缺少互动。传统数字人面对超出预设范围的问题,无法像真人主播那样灵活应对,只能唱“独角戏”,让观众丧失了参与直播的积极性与体验感。

时长不够。很多数字人只能将短视频循环播放,难以支撑长时间且一致的内容生成与交互需求,低质量内容不仅影响用户体验,还可能被平台限流甚至处罚。

行为不可控。数字人一旦出现失误,不仅会损害品牌形象,还可能引发舆论危机,这也是许多头部主播和品牌对数字人直播持谨慎态度的重要原因。

数字人扮演真人主播,需要跨越重重技术挑战。那百度电商直播间的罗永浩,又凭啥成为直播“实力派”?

wKgZPGhSsWmAaI0kAAGvfT9I6Tk725.jpg

6月15日罗永浩数字人在百度电商,完成了数字人主播的极限挑战,做到了不少业内首个。

业内首个超级头部主播数字人直播。罗永浩的粉丝特别多,对真人主播的风格十分熟悉,需要数字人有极高的还原度。数字人罗永浩在直播间妙语连珠,与观众高频互动,举手投足间散发着熟悉的罗氏魅力。

wKgZO2hSsWmAYVv1AAE05tVkdn0229.jpg

业内首个超六小时超头部主播数字人直播,突破了AI视频生成极限时间,生成的产品讲解内容就多达9.7万字。

业内首个多数字人直播,双人配合,告别了一个数字人尬聊的局面。罗永浩和朱萧木的搭档,高度还原了真实主播与助播的直播状态。两个数字人主播能做出喝奶茶、拎可乐等细节动作,还实现了与直播间用户弹幕的实时互动。

这一系列操作下来,刷新了不少人对数字人的固有印象。而罗永浩数字人的诞生,只用了几个月的时间,究竟是如何习得媲美真人的“直播神技”?我们扒开了数字人背后的一整个大模型“导师团”。

wKgZPGhSsWqAZyg1AAHEk5b1aKw408.jpg

一场精彩的数字人直播,绝非单一技能的炫技。想象一下,如果数字人语言表达生动流畅,却搭配着僵硬机械的表情和动作,或是语音语调平淡乏味,如同 “读稿机器”。这正是传统数字人技术的痛点:语言依赖台词模型,语音靠TTS 合成,表情肢体等视觉表现由视频合成,各模态模型“各自为政”。数字人的台词、表情、动作完全不在一个节奏上,观众瞬间就会“出戏”。

作为业内首个多模高度融合数字人,罗永浩数字人的出色表现,正是得益于百度多模协同的数字人技术。

wKgZO2hSsWqAFb8ZAAErDCQZKqg741.jpg

按照欧文・戈夫曼的理论,“剧本”是戏剧表演的核心,演员需依剧本塑造符合期待的形象。数字人领域,“剧本”同样是关键所在。

拥有一个高质量的剧本,就如同数字人有了总指挥,让语言、语音、视觉等不同模态围绕剧本,彼此协同配合,才能让数字人在直播中展现出浑然天成的表现力。

以数字人罗永浩为例,背后就有一个文心大模型的“导师团”进行助力:

首先,是基于大语言模型的剧本生成。

生成剧本的文心大模型,相当于总导演兼总编剧,通过台词,为数字人赋予生动鲜活的“灵魂”。拿罗永浩数字人来说,文心大模型4.5T需要攻克以下关键难题。其一,风格定制。罗永浩犀利幽默、朱萧木风趣洒脱,每位主播都有独特的语言风格,文心大模型通过风格建模,深度学习主播们的语言习惯、表达方式,从遣词造句到语气节奏,全方位贴合主播个人风格进行定制,在模型生成的台词中精准复现,让数字人开口自带主播“味道”。

wKgZPGhSsWuANcCGAD39gqDbBCg529.jpg

除了语言风格,人设一致也是数字人获得观众认可的关键。特别是在多角色配合时,罗永浩作为主咖,朱萧木作为助播,文心大模型在生成剧本时,精准把握二人特点与分工,使台词在语言上自然附和、紧密配合。比如在产品推荐环节,主播重点介绍核心卖点,助播适时补充细节、引导互动,一问一答、一唱一和,展现出符合人设的行为与语言逻辑。

在文心大模型 4.5T的精心雕琢下,生成了既有真人温度,高度还原主播个人特色,又有网感,能将商品卖点生动展现的直播剧本。

接下来,就是“剧本围读”,让多模态系统基于剧本,进行信息对齐。

语音大模型作为口语导师,视觉大模型作为动作导师,先根据大语言模型生成的语音标签和视觉标签,然后生成协调一致的语音和表情动作,赋予数字人影帝、影后般的表现力。

这个过程的难点,是多个模型的对齐。想象一下,如果语音模型理解的台词情感激昂,而视觉模型呈现的却是平淡表情,数字人就会“表里不一”,让观众倍感违和。百度AI数字人,以大模型生成的剧本为统一标尺,确保从台词到语音、从表情到动作,各环节的理解与执行步调一致。

wKgZO2hSsWyAPFlZAHyQopZ6204371.jpg

比如罗永浩与助播数字人之间,会出现频繁的打断说、同时说,需要语音合成系统精准捕捉对话节奏。百度通过加入对话上下文解码器,整合历史对话与当前信息,让数字人在互动时的语音衔接自然流畅,重现真人搭档的默契感。

同时还建立了反向对齐的反馈机制,也就是语音模型合成后,会基于自身对文本的细粒度判断进行优化,再将这些信息反馈给视觉模型,实现音画间的精准匹配,形成一个闭环的协同体系。

通过多模系统的“剧本围读”,可以在剧本指引下,完成声台行表的默契配合,让数字人在直播镜头前展现出媲美真人的表现力,为观众带来沉浸式的观看体验。

六七个小时的直播,数字人只能对着剧本“照本宣科”吗?为什么数字人罗永浩还能在直播间跟用户实时互动呢?这就要提到第三个关键能力:临场发挥的灵活性与可控性。

据吴甜介绍,数字人直播就像拍电影,演员的表演并不是照本宣科,要有对剧本的理解和临场发挥。

其中,剧本作为核心,确保数字人行为逻辑的一致性,而文心大模型则赋予其应对复杂场景的“应变力”和长时间的可控性。

在时长如马拉松式的直播中,现实场景的复杂性远超想象。用户突如其来的刁钻提问,直播间场景内人物、商品、环境的自由交互,都暗藏着不可控因素。让数字人在复杂交互场景中也能游刃有余,文心大模型是这场技术突围的“智慧中枢”。

wKgZPGhSsW6AZE-vAABPGQXzM1o223.jpg

一方面,依托大模型的语言理解与生成能力,结合直播场景的高频需求进行针对性训练,赋予数字人实时理解用户意图的“洞察力”。在罗永浩数字人直播中,AI知识库1.3万次的调用,9.7万字的内容生成,正是文心大模型强大创造能力的直观体现。

另一方面,依托文心大模型4.5T的深度思考能力,在剧本生成时先进行规划和思考,搜索最优路径,再通过评价和评估,提升最终的可控性。

当数字人在直播间自如切换讲解模式、巧妙化解突发提问,与用户深度互动,背后正是多文心大模型在持续稳定地发挥作用,为数字人直播行业开辟出长时、灵活、可控、优质的全新赛道。

总结一下,罗永浩数字人直播的成功,离不开百度大模型技术体系的托举,也是百度大模型技术实力的具象化呈现。

wKgZO2hSsW-AK04MAAHYdYMYv0o735.jpg

欧文・戈夫曼的“拟剧理论”成为社会学经典,在于其揭露了社会协作的基础——每个人依据剧本扮演良好形象,教师扮演好传道授业的角色,医生恪守救死扶伤的职责,整个社会才能有序运转。

当直播行业走过野蛮生长的黄金期,流量红利消退,主播需要扮演什么样的角色呢?或许是专业导购,能够对产品细节和专业知识娓娓道来;是贴心客服,及时响应用户的每一个疑问;是知心朋友,在用户需要的时候提供全天候陪伴……这样才能与观众建立信任纽带,走向高质量发展。

专业且敬业的真人主播,培养不易,开播成本也是中小商家所无力负担的。这时候,AI数字人的技术革命,成为打破直播效率困局的关键。

在大厂纷纷布局数字人,竞争白热化的背景下,百度依然凭借AI技术优势,构建起数字人的差异化能力:

wKgZPGhSsW-ATvqwAAJDKjWhIT4783.jpg

一是先进。百度数字人直播的技术能力如剧本生成、多模驱动、一致性和高拟真性等,是业界天花板。对数字人技术要求苛刻的超级头部主播来说,选择百度数字人放大IP价值,用自身的专业能力24小时服务用户。

二是专精。当部分企业投入海量资源研发通用型视频生成技术时,百度深耕数字人直播场景,推出的慧播星数字人系统已服务超10万商家,覆盖32个垂直行业。对中小商家来说,通过百度数字人可以轻松开播,品尝到AI技术带来的增长红利。

三是性价比。借助百度AI技术,品牌商家可获得“人货场”的全面助力,除了数字人,还可以利用AI技术对商品进行深度分析和理解,实现商品的智能管理和精准营销。提升收益的同时,百度数字人的综合成本比真人主播要低,而且随着开播的场次越多,它的边际收益越高,未来数字人的生产制作成本还会进一步的下降。

这场从流量争夺到技术深耕的变革,正在重新定义直播行业的未来。当数字人顶流登上直播舞台,百度AI驱动的直播下半场,也是智能电商的新篇章。

wKgZO2hSsXCAJEuQAAG_4nQnQHc107.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296549
  • 数字人
    +关注

    关注

    0

    文章

    158

    浏览量

    2540
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4964
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度模型5.0-Preview文本能力国内第一

    11月8日凌晨,LMArena大模型竞技场最新排名显示,全新模型ERNIE-5.0-Preview-1022登上文本排行榜全球并列第二、中国第一该
    的头像 发表于 11-11 17:15 1095次阅读

    百度模型X1.1正式发布

    今天,在WAVE SUMMIT深度学习开发者大会2025上,模型X1.1正式发布,在事实性、指令遵循、智能体等能力上均提升显著。
    的头像 发表于 09-10 11:08 1658次阅读

    宁畅与与百度模型展开深度技术合作

    近日,百度正式开源模型4.5系列模型。作为开源合作伙伴,宁畅在
    的头像 发表于 07-07 16:26 645次阅读

    黑芝麻智能与模型技术合作升级

    近日,模型正式开源,黑芝麻智能即日起快速启动与模型技术合作。
    的头像 发表于 07-04 17:24 1015次阅读
    黑芝麻智能与<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>技术合作升级

    百度模型X1 Turbo获得信通院当前大模型最高评级证书

    ,16项达5分,综合评级获当前最高级“4+级”, 成为国内首款通过该测评的大模型X1 Turbo逻辑推理、代码推理、推理效果优化等技术能力及工具支持度、安全可靠度等应用能力均获
    的头像 发表于 05-21 18:19 1108次阅读
    百度<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>X1 Turbo获得信通院当前大<b class='flag-5'>模型</b>最高评级证书

    百度发布4.5 Turbo、X1 Turbo和多款AI应用

    近日,Create2025百度AI开发者大会在武汉举办。百度创始李彦宏发布了模型4.5 Turbo及深度思考模型X1 Turbo两大
    的头像 发表于 04-30 10:16 924次阅读

    商汤科技助力如影数字超级直播间全新升级

    作为数字行业首创,如影数字超级直播间可实现多模态智能运营,依托“商汤日日新SenseNov
    的头像 发表于 04-23 16:31 840次阅读

    百度发布模型4.5和文模型X1

    模型4.5是百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑
    的头像 发表于 03-18 16:29 707次阅读

    百度下一代模型正式开源

    随着模型的迭代升级和成本不断下降,一言将于4月1日0时起全面免费,所有PC端和APP端用户均可体验
    的头像 发表于 02-17 13:44 806次阅读

    百度搜索与心智能体平台接入DeepSeek及模型深度搜索

    近日,百度搜索与心智能体平台联合宣布了一项重要更新:将全面接入DeepSeek及模型最新的深度搜索功能。这一更新将为用户和开发者带来更加智能、高效的搜索和智能体创建体验。 据悉
    的头像 发表于 02-17 09:14 969次阅读

    百度模型将升级并开源

    百度近日宣布,其文模型系列将迎来新版本升级,计划在未来数月内逐步推出文模型4.5系列。这一消息无疑为AI领域注入了新的活力。 据悉,百度
    的头像 发表于 02-14 14:25 742次阅读

    百度模型4月1日起全面免费开放

    近日,百度公司正式对外宣布,其备受关注的模型在经过一系列迭代与优化后,将于4月1日零时全面免费开放给所有用户。此次免费开放的覆盖范围广泛,包括所有PC端及App端用户,让用户能够尽情体验
    的头像 发表于 02-14 09:19 682次阅读

    百度宣布一言将全面免费

    随着模型的迭代升级和成本不断下降,一言将于4月1日零时起,全面免费,所有PC端和APP端用户均可体验
    的头像 发表于 02-13 10:46 652次阅读

    凌智电子受邀参加模型生态大会

    12月26日在上海·张江科学会堂,由深度学习技术及应用国家工程研究中心主办,百度飞桨及模型承办,以“模力无限星河共创”为主题的
    的头像 发表于 01-03 16:35 944次阅读
    凌智电子受邀参加<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>生态大会

    模力无限,星河共创:启明云端与您共赴模型生态大会

    在人工智能的浪潮中,我们即将迎来一场科技界的盛会——模型生态大会。这场将于12月26日在上海·张江科学会堂举行的大会,由深度学习技术及应用国家工程研究中心主办,百度飞桨及
    的头像 发表于 12-24 18:01 1527次阅读
    模力无限,星河共创:启明云端与您共赴<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>生态大会