3 月 19 日,Google 在其官方博客上发布了关于 VLOGGER AI 模型的相关信息。这是一款利用用户提供的肖像照片和音频内容,使人物生动地呈现音频内容并具备丰富面部表情的人工智能程序。
具体来说,VLOGGER AI 采用一种适应虚拟肖像的多模态 Diffusion 模型,通过 MENTOR 数据库进行训练,涵盖了超80万个人物肖像及超过2200小时的视频数据。得益于此,VLOGGER 可以生成各种族、各年龄段、穿着多样、姿态各异的肖像视频。
研发团队指出,相较于之前的同类产品,VLOGGER 的独特之处在于无需针对每个使用者进行单独培训,且不受限于人脸检测和裁剪,能产出完整的图像,且能够处理更多元化的情境如可见的身躯或者其他身份特征,这对于真实再现人物交流过程至关重要。
谷歌将 VLOGGER 视为通往“通用聊天机器人”未来的关键一步,使人工智能能以自然的语音、手势和眼神等方式与人类交互。除此之外,VLOGGER 还可用作报告、教育领域以及旁白等方面的辅助工具,并能对已有的电影进行剪辑和表情调整。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
Google
+关注
关注
5文章
1820浏览量
60715 -
模型
+关注
关注
1文章
3879浏览量
52355 -
VLogger
+关注
关注
0文章
5浏览量
8491
发布评论请先 登录
相关推荐
热点推荐
谷歌发布Gemini for Science
2026年5月20日,谷歌I/O开发者大会上,谷歌正式推出Gemini for Science——一款专门面向科研场景的AI模型。这不是又一个能帮你查文献的聊天机器人,而是
谷歌推出Gemini 3.5系列模型
效的AI模型,即日起向全球所有用户 **免费开放** 。
皮查伊的原话掷地有声:"用户无需再在质量与响应速度之间做取舍。"
谷歌正抢先布局移动端AI
近日,距离谷歌I/O开发者大会开幕仅剩一周,谷歌抢先公布了一系列Android系统重大升级,正式宣布将旗下Gemini模型从聊天机器人升级为部署在手机、浏览器、车载与笔记本电脑上的系统级操作层。
使用NORDIC AI的好处
; 自定义 Neuton 模型博客]
Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的专用 AI 加速器,对 TensorFlow Lite 模型可实现最高约 1
发表于 01-31 23:16
泰凌微:布局端侧AI,产品支持谷歌LiteRT、TVM开源模型
电子发烧友网报道(文/李弯弯)泰凌微近日表示,公司与谷歌在智能家居、音频等多个领域开展具体项目合作。其与谷歌已从单一的遥控器芯片供应,发展为涵盖音频、智能家居、端侧
GMate发布《2025全球AI内容营销趋势报告》
报告显示:到2026年,全球70%以上品牌内容将由AI辅助生成,AI营销进入“全自动增长”新纪元。 10月,AI营销创新平台 GMate 发布
深兰科技发布AI法务大模型产品
近日,深兰科技发布面向律所与企业法务部门的AI法务大模型产品——“深兰律师办公自动化系统(AI版)”。通过AI技术赋能法律服务行业,它能够显
谷歌AlphaEarth和维智时空AI大模型的核心差异
谷歌AlphaEarth和维智时空AI大模型在技术理念上存在诸多共性,但两者在目标尺度、数据来源、技术实现和应用模式上存在显著差异。
谷歌AlphaEarth和维智时空AI大模型的技术路径
谷歌AlphaEarth和维智时空AI大模型在应用场景和技术实现上各有侧重,但两者在底层技术理念上存在显著共性。
NVIDIA推出多语种语音AI开放数据集与模型
新发布的 Granary 数据集包含约 100 万小时音频,可用于训练高精度、高吞吐量的 AI 音频转录与翻译模型。
【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览
,其中第一章是概论,主要介绍大模型浪潮下AI芯片的需求与挑战。第二章和第三章分别介绍实现深度学习AI芯片的创新方法和架构。以及一些新型的算法和思路。第四章是全面介绍半导体芯产业的前沿技
发表于 09-05 15:10
谷歌AI模型点亮开发无限可能
在 2025 年的 Google 谷歌开发者大会上,AI 不是一门“技术”,更是一股彻底改变开发范式的“力量”,助力开发者们在海外市场更上一层楼。AI 已经不仅仅是生成几行代码,它正在全面提升整个开发过程。从
英语单词学习页面+单词朗读实现 -- 【2】单词朗读实现 ##HarmonyOS SDK AI##
的原理是通过文字转语音的形式实现的,之前也写过文章分享过在API9下如何进行文字转语音,那是通过第三方的API实现的,需要申请token,请求接口,然后再通过media去播放,整体流程较为复杂,还必须
发表于 06-29 23:26
英语单词学习页面+单词朗读实现 -- 【1】页面实现 ##HarmonyOS SDK AI##
先看一下页面效果
整体页面是一个比较简洁的页面,其中有两个特色功能
对于例句中,能够实现将当前的单词从句子中进行识别并突出显示
对于单词和句子,可以进行朗读,这个朗读使用的是Core
发表于 06-29 23:24
谷歌发布VLOGGER AI模型,实现肖像朗读音频内容
评论