0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌发布VLOGGER AI模型,实现肖像朗读音频内容

微云疏影 来源:综合整理 作者:综合整理 2024-03-19 14:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

3 月 19 日,Google 在其官方博客上发布了关于 VLOGGER AI 模型的相关信息。这是一款利用用户提供的肖像照片和音频内容,使人物生动地呈现音频内容并具备丰富面部表情的人工智能程序。

具体来说,VLOGGER AI 采用一种适应虚拟肖像的多模态 Diffusion 模型,通过 MENTOR 数据库进行训练,涵盖了超80万个人物肖像及超过2200小时的视频数据。得益于此,VLOGGER 可以生成各种族、各年龄段、穿着多样、姿态各异的肖像视频。

研发团队指出,相较于之前的同类产品,VLOGGER 的独特之处在于无需针对每个使用者进行单独培训,且不受限于人脸检测和裁剪,能产出完整的图像,且能够处理更多元化的情境如可见的身躯或者其他身份特征,这对于真实再现人物交流过程至关重要。

谷歌将 VLOGGER 视为通往“通用聊天机器人”未来的关键一步,使人工智能能以自然的语音、手势和眼神等方式与人类交互。除此之外,VLOGGER 还可用作报告、教育领域以及旁白等方面的辅助工具,并能对已有的电影进行剪辑和表情调整。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1820

    浏览量

    60715
  • 模型
    +关注

    关注

    1

    文章

    3879

    浏览量

    52355
  • VLogger
    +关注

    关注

    0

    文章

    5

    浏览量

    8491
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌发布Gemini for Science

    2026年5月20日,谷歌I/O开发者大会上,谷歌正式推出Gemini for Science——一款专门面向科研场景的AI模型。这不是又一个能帮你查文献的聊天机器人,而是
    的头像 发表于 05-21 10:42 1169次阅读

    谷歌推出Gemini 3.5系列模型

    效的AI模型,即日起向全球所有用户 **免费开放** 。 皮查伊的原话掷地有声:"用户无需再在质量与响应速度之间做取舍。"
    的头像 发表于 05-21 10:19 577次阅读

    谷歌正抢先布局移动端AI

    近日,距离谷歌I/O开发者大会开幕仅剩一周,谷歌抢先公布了一系列Android系统重大升级,正式宣布将旗下Gemini模型从聊天机器人升级为部署在手机、浏览器、车载与笔记本电脑上的系统级操作层。
    的头像 发表于 05-14 10:27 774次阅读

    使用NORDIC AI的好处

    ; 自定义 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的专用 AI 加速器,对 TensorFlow Lite 模型实现最高约 1
    发表于 01-31 23:16

    泰凌微:布局端侧AI,产品支持谷歌LiteRT、TVM开源模型

     电子发烧友网报道(文/李弯弯)泰凌微近日表示,公司与谷歌在智能家居、音频等多个领域开展具体项目合作。其与谷歌已从单一的遥控器芯片供应,发展为涵盖音频、智能家居、端侧
    的头像 发表于 12-15 08:21 1.1w次阅读

    GMate发布《2025全球AI内容营销趋势报告》

    报告显示:到2026年,全球70%以上品牌内容将由AI辅助生成,AI营销进入“全自动增长”新纪元。   10月,AI营销创新平台 GMate 发布
    的头像 发表于 11-18 19:42 968次阅读

    深兰科技发布AI法务大模型产品

    近日,深兰科技发布面向律所与企业法务部门的AI法务大模型产品——“深兰律师办公自动化系统(AI版)”。通过AI技术赋能法律服务行业,它能够显
    的头像 发表于 10-23 17:58 1299次阅读

    谷歌AlphaEarth和维智时空AI模型的核心差异

    谷歌AlphaEarth和维智时空AI模型在技术理念上存在诸多共性,但两者在目标尺度、数据来源、技术实现和应用模式上存在显著差异。
    的头像 发表于 10-22 14:50 1156次阅读

    谷歌AlphaEarth和维智时空AI模型的技术路径

    谷歌AlphaEarth和维智时空AI模型在应用场景和技术实现上各有侧重,但两者在底层技术理念上存在显著共性。
    的头像 发表于 10-22 14:48 1145次阅读

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    NVIDIA推出多语种语音AI开放数据集与模型

    发布的 Granary 数据集包含约 100 万小时音频,可用于训练高精度、高吞吐量的 AI 音频转录与翻译模型
    的头像 发表于 09-23 15:34 1279次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    ,其中第一章是概论,主要介绍大模型浪潮下AI芯片的需求与挑战。第二章和第三章分别介绍实现深度学习AI芯片的创新方法和架构。以及一些新型的算法和思路。第四章是全面介绍半导体芯产业的前沿技
    发表于 09-05 15:10

    谷歌AI模型点亮开发无限可能

    在 2025 年的 Google 谷歌开发者大会上,AI 不是一门“技术”,更是一股彻底改变开发范式的“力量”,助力开发者们在海外市场更上一层楼。AI 已经不仅仅是生成几行代码,它正在全面提升整个开发过程。从
    的头像 发表于 08-29 09:29 1372次阅读

    英语单词学习页面+单词朗读实现 -- 【2】单词朗读实现 ##HarmonyOS SDK AI##

    的原理是通过文字转语音的形式实现的,之前也写过文章分享过在API9下如何进行文字转语音,那是通过第三方的API实现的,需要申请token,请求接口,然后再通过media去播放,整体流程较为复杂,还必须
    发表于 06-29 23:26

    英语单词学习页面+单词朗读实现 -- 【1】页面实现 ##HarmonyOS SDK AI##

    ​先看一下页面效果 ​ 整体页面是一个比较简洁的页面,其中有两个特色功能 对于例句中,能够实现将当前的单词从句子中进行识别并突出显示 对于单词和句子,可以进行朗读,这个朗读使用的是Core
    发表于 06-29 23:24