3 月 19 日,Google 在其官方博客上发布了关于 VLOGGER AI 模型的相关信息。这是一款利用用户提供的肖像照片和音频内容,使人物生动地呈现音频内容并具备丰富面部表情的人工智能程序。
具体来说,VLOGGER AI 采用一种适应虚拟肖像的多模态 Diffusion 模型,通过 MENTOR 数据库进行训练,涵盖了超80万个人物肖像及超过2200小时的视频数据。得益于此,VLOGGER 可以生成各种族、各年龄段、穿着多样、姿态各异的肖像视频。
研发团队指出,相较于之前的同类产品,VLOGGER 的独特之处在于无需针对每个使用者进行单独培训,且不受限于人脸检测和裁剪,能产出完整的图像,且能够处理更多元化的情境如可见的身躯或者其他身份特征,这对于真实再现人物交流过程至关重要。
谷歌将 VLOGGER 视为通往“通用聊天机器人”未来的关键一步,使人工智能能以自然的语音、手势和眼神等方式与人类交互。除此之外,VLOGGER 还可用作报告、教育领域以及旁白等方面的辅助工具,并能对已有的电影进行剪辑和表情调整。
-
Google
+关注
关注
5文章
1801浏览量
60266 -
模型
+关注
关注
1文章
3649浏览量
51713 -
VLogger
+关注
关注
0文章
5浏览量
8458
发布评论请先 登录
谷歌AlphaEarth和维智时空AI大模型的核心差异
谷歌AlphaEarth和维智时空AI大模型的技术路径
NVIDIA推出多语种语音AI开放数据集与模型
【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览
谷歌AI模型点亮开发无限可能
英语单词学习页面+单词朗读实现 -- 【2】单词朗读实现 ##HarmonyOS SDK AI##
英语单词学习页面+单词朗读实现 -- 【1】页面实现 ##HarmonyOS SDK AI##
首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手
谷歌新一代 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎
谷歌“减法”新动作:砍掉耳机按键唤醒朗读功能

谷歌发布VLOGGER AI模型,实现肖像朗读音频内容
评论