0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌发布VLOGGER AI模型,实现肖像朗读音频内容

微云疏影 来源:综合整理 作者:综合整理 2024-03-19 14:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

3 月 19 日,Google 在其官方博客上发布了关于 VLOGGER AI 模型的相关信息。这是一款利用用户提供的肖像照片和音频内容,使人物生动地呈现音频内容并具备丰富面部表情的人工智能程序。

具体来说,VLOGGER AI 采用一种适应虚拟肖像的多模态 Diffusion 模型,通过 MENTOR 数据库进行训练,涵盖了超80万个人物肖像及超过2200小时的视频数据。得益于此,VLOGGER 可以生成各种族、各年龄段、穿着多样、姿态各异的肖像视频。

研发团队指出,相较于之前的同类产品,VLOGGER 的独特之处在于无需针对每个使用者进行单独培训,且不受限于人脸检测和裁剪,能产出完整的图像,且能够处理更多元化的情境如可见的身躯或者其他身份特征,这对于真实再现人物交流过程至关重要。

谷歌将 VLOGGER 视为通往“通用聊天机器人”未来的关键一步,使人工智能能以自然的语音、手势和眼神等方式与人类交互。除此之外,VLOGGER 还可用作报告、教育领域以及旁白等方面的辅助工具,并能对已有的电影进行剪辑和表情调整。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1801

    浏览量

    60266
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51713
  • VLogger
    +关注

    关注

    0

    文章

    5

    浏览量

    8458
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌AlphaEarth和维智时空AI模型的核心差异

    谷歌AlphaEarth和维智时空AI模型在技术理念上存在诸多共性,但两者在目标尺度、数据来源、技术实现和应用模式上存在显著差异。
    的头像 发表于 10-22 14:50 522次阅读

    谷歌AlphaEarth和维智时空AI模型的技术路径

    谷歌AlphaEarth和维智时空AI模型在应用场景和技术实现上各有侧重,但两者在底层技术理念上存在显著共性。
    的头像 发表于 10-22 14:48 602次阅读

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    NVIDIA推出多语种语音AI开放数据集与模型

    发布的 Granary 数据集包含约 100 万小时音频,可用于训练高精度、高吞吐量的 AI 音频转录与翻译模型
    的头像 发表于 09-23 15:34 604次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    ,其中第一章是概论,主要介绍大模型浪潮下AI芯片的需求与挑战。第二章和第三章分别介绍实现深度学习AI芯片的创新方法和架构。以及一些新型的算法和思路。第四章是全面介绍半导体芯产业的前沿技
    发表于 09-05 15:10

    谷歌AI模型点亮开发无限可能

    在 2025 年的 Google 谷歌开发者大会上,AI 不是一门“技术”,更是一股彻底改变开发范式的“力量”,助力开发者们在海外市场更上一层楼。AI 已经不仅仅是生成几行代码,它正在全面提升整个开发过程。从
    的头像 发表于 08-29 09:29 859次阅读

    英语单词学习页面+单词朗读实现 -- 【2】单词朗读实现 ##HarmonyOS SDK AI##

    的原理是通过文字转语音的形式实现的,之前也写过文章分享过在API9下如何进行文字转语音,那是通过第三方的API实现的,需要申请token,请求接口,然后再通过media去播放,整体流程较为复杂,还必须
    发表于 06-29 23:26

    英语单词学习页面+单词朗读实现 -- 【1】页面实现 ##HarmonyOS SDK AI##

    ​先看一下页面效果 ​ 整体页面是一个比较简洁的页面,其中有两个特色功能 对于例句中,能够实现将当前的单词从句子中进行识别并突出显示 对于单词和句子,可以进行朗读,这个朗读使用的是Core
    发表于 06-29 23:24

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    的自有模型移植,使首字词生态速度比云端方案提升70%,赋能绝影多模态智能座舱强大的端侧运行能力,让汽车拥有“有趣的灵魂”。 不仅如此,天玑AI开发套件已经接入NVIDIA TAO生态圈,实现TAO
    发表于 04-13 19:52

    谷歌新一代 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎​

    与推理 AI 模型谷歌方面表示,它代表着 AI 发展从 “响应式” 向 “主动式” 的范式转变,未来 AI 代理将能够主动检索并
    的头像 发表于 04-12 00:57 3220次阅读

    谷歌“减法”新动作:砍掉耳机按键唤醒朗读功能

    电子发烧友网报道(文/莫婷婷)近期,谷歌宣布将对耳机上的 Google Assistant语音助手功能进行调整,取消通过触控唤醒助理“自动朗读未读通知”的功能。谷歌表示,要想完成该功能可以通过语音
    的头像 发表于 02-22 22:56 2889次阅读
    <b class='flag-5'>谷歌</b>“减法”新动作:砍掉耳机按键唤醒<b class='flag-5'>朗读</b>功能

    NVIDIA推出面向RTX AI PC的AI基础模型

    NVIDIA 今日发布能在 NVIDIA RTX AI PC 本地运行的基础模型,为数字人、内容创作、生产力和开发提供强大助力。
    的头像 发表于 01-08 11:01 870次阅读

    谷歌发布“深度研究”AI工具,利用Gemini模型进行网络信息检索

    据外媒最新报道,谷歌近期发布了一款名为“深度研究”的先进AI工具。这款工具借助其内部的Gemini大型语言模型实现了对网络信息的高效检索与
    的头像 发表于 12-16 09:35 1039次阅读

    谷歌正式发布Gemini 2.0 性能提升近两倍

    在智能体时代,谷歌再次引领技术潮流,正式发布了其最新力作——Gemini 2.0。这款AI模型不仅在性能上实现了显著提升,更是在多模态表现和
    的头像 发表于 12-12 14:22 1117次阅读

    谷歌发布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名为“深度研究”的新特性,旨在为用户提供更加全面和深入的复杂主题探索与报告撰写辅助。 Gemini 2.0通过高级推理和长上
    的头像 发表于 12-12 10:13 967次阅读