罗永浩数字人刷屏背后，文心大模型成为直播行业的“剧本总导演”-电子发烧友网

《日常生活中的自我呈现》一书中，欧文・戈夫曼将戏剧表演引入社会学。他提出，人们在日常互动里，会依照预设的“剧本”（即社会规范），借助行为管理进行表演，在他人心中留下良好印象。

按照这个理论，数字人直播总被吐槽，原因就是数字人的演技太差，无法呈现出真人主播一样的观感，表情僵硬、手势不自然，无法给大众留下好印象。

就在最近，数字人主播界突然出现了一位演技实力派——罗永浩。罗永浩数字人在百度电商的首场直播，以长达连续近7小时的高强度直播，实时解答弹幕问题，动辄输出“罗式段子”，还与助播朱萧木互相抛梗接梗，刷新了大众心中数字人的观感。

甚至有人问老罗，“是不是你在扮演数字人”，简直倒反天罡。

难辨真假、技惊四座的罗永浩数字人，到底是怎么实现的？6月17日的百度AI开放日慧播星专场现场，百度集团副总裁吴甜，揭秘了罗永浩数字人背后的技术秘密。最关键的就是，基于文心大模型4.5T的“剧本”生成与多模协同。

618硝烟正燃，而一场以AI大模型为核心驱动的电商效率革命，正拉开序幕。

大家有没有这样的经历：

评论区的弹幕太多，留言总是得不到主播的回复；

想看直播，但真人主播已经下班了，错过了专属红包和优惠；

自己直播带货，但一面对镜头就紧张，直播效果不尽如人意；

等头部主播来助农直播，还得看对方的差旅安排和时间调配……

数字人被视为解决人力局限、实现全天候直播的理想方案。然而，以往的数字人一直无法惟妙惟肖地饰演真人主播，槽点主要集中在几个方面：

演得不像。数字人的表情、手势与肢体细节与文案对不上，产生“恐怖谷”效应，让观众感到诡异。

缺少互动。传统数字人面对超出预设范围的问题，无法像真人主播那样灵活应对，只能唱“独角戏”，让观众丧失了参与直播的积极性与体验感。

时长不够。很多数字人只能将短视频循环播放，难以支撑长时间且一致的内容生成与交互需求，低质量内容不仅影响用户体验，还可能被平台限流甚至处罚。

行为不可控。数字人一旦出现失误，不仅会损害品牌形象，还可能引发舆论危机，这也是许多头部主播和品牌对数字人直播持谨慎态度的重要原因。

数字人扮演真人主播，需要跨越重重技术挑战。那百度电商直播间的罗永浩，又凭啥成为直播“实力派”？

6月15日罗永浩数字人在百度电商，完成了数字人主播的极限挑战，做到了不少业内首个。

业内首个超级头部主播数字人直播。罗永浩的粉丝特别多，对真人主播的风格十分熟悉，需要数字人有极高的还原度。数字人罗永浩在直播间妙语连珠，与观众高频互动，举手投足间散发着熟悉的罗氏魅力。

业内首个超六小时超头部主播数字人直播，突破了AI视频生成极限时间，生成的产品讲解内容就多达9.7万字。

业内首个多数字人直播，双人配合，告别了一个数字人尬聊的局面。罗永浩和朱萧木的搭档，高度还原了真实主播与助播的直播状态。两个数字人主播能做出喝奶茶、拎可乐等细节动作，还实现了与直播间用户弹幕的实时互动。

这一系列操作下来，刷新了不少人对数字人的固有印象。而罗永浩数字人的诞生，只用了几个月的时间，究竟是如何习得媲美真人的“直播神技”？我们扒开了数字人背后的一整个大模型“导师团”。

一场精彩的数字人直播，绝非单一技能的炫技。想象一下，如果数字人语言表达生动流畅，却搭配着僵硬机械的表情和动作，或是语音语调平淡乏味，如同 “读稿机器”。这正是传统数字人技术的痛点：语言依赖台词模型，语音靠TTS 合成，表情肢体等视觉表现由视频合成，各模态模型“各自为政”。数字人的台词、表情、动作完全不在一个节奏上，观众瞬间就会“出戏”。

作为业内首个多模高度融合数字人，罗永浩数字人的出色表现，正是得益于百度多模协同的数字人技术。

按照欧文・戈夫曼的理论，“剧本”是戏剧表演的核心，演员需依剧本塑造符合期待的形象。数字人领域，“剧本”同样是关键所在。

拥有一个高质量的剧本，就如同数字人有了总指挥，让语言、语音、视觉等不同模态围绕剧本，彼此协同配合，才能让数字人在直播中展现出浑然天成的表现力。

以数字人罗永浩为例，背后就有一个文心大模型的“导师团”进行助力：

首先，是基于大语言模型的剧本生成。

生成剧本的文心大模型，相当于总导演兼总编剧，通过台词，为数字人赋予生动鲜活的“灵魂”。拿罗永浩数字人来说，文心大模型4.5T需要攻克以下关键难题。其一，风格定制。罗永浩犀利幽默、朱萧木风趣洒脱，每位主播都有独特的语言风格，文心大模型通过风格建模，深度学习主播们的语言习惯、表达方式，从遣词造句到语气节奏，全方位贴合主播个人风格进行定制，在模型生成的台词中精准复现，让数字人开口自带主播“味道”。

除了语言风格，人设一致也是数字人获得观众认可的关键。特别是在多角色配合时，罗永浩作为主咖，朱萧木作为助播，文心大模型在生成剧本时，精准把握二人特点与分工，使台词在语言上自然附和、紧密配合。比如在产品推荐环节，主播重点介绍核心卖点，助播适时补充细节、引导互动，一问一答、一唱一和，展现出符合人设的行为与语言逻辑。

在文心大模型 4.5T的精心雕琢下，生成了既有真人温度，高度还原主播个人特色，又有网感，能将商品卖点生动展现的直播剧本。

接下来，就是“剧本围读”，让多模态系统基于剧本，进行信息对齐。

语音大模型作为口语导师，视觉大模型作为动作导师，先根据大语言模型生成的语音标签和视觉标签，然后生成协调一致的语音和表情动作，赋予数字人影帝、影后般的表现力。

这个过程的难点，是多个模型的对齐。想象一下，如果语音模型理解的台词情感激昂，而视觉模型呈现的却是平淡表情，数字人就会“表里不一”，让观众倍感违和。百度AI数字人，以大模型生成的剧本为统一标尺，确保从台词到语音、从表情到动作，各环节的理解与执行步调一致。

比如罗永浩与助播数字人之间，会出现频繁的打断说、同时说，需要语音合成系统精准捕捉对话节奏。百度通过加入对话上下文解码器，整合历史对话与当前信息，让数字人在互动时的语音衔接自然流畅，重现真人搭档的默契感。

同时还建立了反向对齐的反馈机制，也就是语音模型合成后，会基于自身对文本的细粒度判断进行优化，再将这些信息反馈给视觉模型，实现音画间的精准匹配，形成一个闭环的协同体系。

通过多模系统的“剧本围读”，可以在剧本指引下，完成声台行表的默契配合，让数字人在直播镜头前展现出媲美真人的表现力，为观众带来沉浸式的观看体验。

六七个小时的直播，数字人只能对着剧本“照本宣科”吗？为什么数字人罗永浩还能在直播间跟用户实时互动呢？这就要提到第三个关键能力：临场发挥的灵活性与可控性。

据吴甜介绍，数字人直播就像拍电影，演员的表演并不是照本宣科，要有对剧本的理解和临场发挥。

其中，剧本作为核心，确保数字人行为逻辑的一致性，而文心大模型则赋予其应对复杂场景的“应变力”和长时间的可控性。

在时长如马拉松式的直播中，现实场景的复杂性远超想象。用户突如其来的刁钻提问，直播间场景内人物、商品、环境的自由交互，都暗藏着不可控因素。让数字人在复杂交互场景中也能游刃有余，文心大模型是这场技术突围的“智慧中枢”。

一方面，依托大模型的语言理解与生成能力，结合直播场景的高频需求进行针对性训练，赋予数字人实时理解用户意图的“洞察力”。在罗永浩数字人直播中，AI知识库1.3万次的调用，9.7万字的内容生成，正是文心大模型强大创造能力的直观体现。

另一方面，依托文心大模型4.5T的深度思考能力，在剧本生成时先进行规划和思考，搜索最优路径，再通过评价和评估，提升最终的可控性。

当数字人在直播间自如切换讲解模式、巧妙化解突发提问，与用户深度互动，背后正是多文心大模型在持续稳定地发挥作用，为数字人直播行业开辟出长时、灵活、可控、优质的全新赛道。

总结一下，罗永浩数字人直播的成功，离不开百度大模型技术体系的托举，也是百度大模型技术实力的具象化呈现。

欧文・戈夫曼的“拟剧理论”成为社会学经典，在于其揭露了社会协作的基础——每个人依据剧本扮演良好形象，教师扮演好传道授业的角色，医生恪守救死扶伤的职责，整个社会才能有序运转。

当直播行业走过野蛮生长的黄金期，流量红利消退，主播需要扮演什么样的角色呢？或许是专业导购，能够对产品细节和专业知识娓娓道来；是贴心客服，及时响应用户的每一个疑问；是知心朋友，在用户需要的时候提供全天候陪伴……这样才能与观众建立信任纽带，走向高质量发展。

专业且敬业的真人主播，培养不易，开播成本也是中小商家所无力负担的。这时候，AI数字人的技术革命，成为打破直播效率困局的关键。

在大厂纷纷布局数字人，竞争白热化的背景下，百度依然凭借AI技术优势，构建起数字人的差异化能力：

一是先进。百度数字人直播的技术能力如剧本生成、多模驱动、一致性和高拟真性等，是业界天花板。对数字人技术要求苛刻的超级头部主播来说，选择百度数字人放大IP价值，用自身的专业能力24小时服务用户。

二是专精。当部分企业投入海量资源研发通用型视频生成技术时，百度深耕数字人直播场景，推出的慧播星数字人系统已服务超10万商家，覆盖32个垂直行业。对中小商家来说，通过百度数字人可以轻松开播，品尝到AI技术带来的增长红利。

三是性价比。借助百度AI技术，品牌商家可获得“人货场”的全面助力，除了数字人，还可以利用AI技术对商品进行深度分析和理解，实现商品的智能管理和精准营销。提升收益的同时，百度数字人的综合成本比真人主播要低，而且随着开播的场次越多，它的边际收益越高，未来数字人的生产制作成本还会进一步的下降。

这场从流量争夺到技术深耕的变革，正在重新定义直播行业的未来。当数字人顶流登上直播舞台，百度AI驱动的直播下半场，也是智能电商的新篇章。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
91

文章
40941

浏览量
302520
数字人

数字人

+关注

关注
0

文章
160

浏览量
2587
大模型

大模型

+关注

关注
2

文章
3750

浏览量
5268

搜索历史

罗永浩数字人刷屏背后，文心大模型成为直播行业的“剧本总导演”

评论