0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

旷视AI开源新突破:上传照片即可生成表情包视频!

AI机械姬 来源:AI机械姬 作者:AI机械姬 2024-07-12 11:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

日前,旷视科技发布了一项新的开源AI人像视频生成框架——MegActor。该框架让用户只需输入一张静态肖像图片和一段视频(如演讲、表情包、rap),便可生成一段表情丰富、动作一致的AI人像视频。生成的视频长度取决于输入的视频长度。与阿里EMO、微软VASA等最新AI视频模型不同,旷视MegActor采用开源方式,供开发者社区使用。MegActor生成的视频画质更出色,面部细节更加丰富自然。

wKgZomaQp8CARJnFAAAUzJBUboU053.png

为了展示其泛化性,MegActor甚至可以将VASA中的人物肖像和视频组合生成,得到生动的表情视频。即使与阿里EMO的官方案例相比,MegActor也能生成近似的效果。

wKgaomaQp0qAR1g4AAGuNBaURo8083.png

总的来说,无论是让肖像开口说话、唱歌、模仿搞怪表情包,MegActor都能生成逼真的效果。

论文链接:https://arxiv.org/abs/2405.20851

代码地址:https://github.com/megvii-research/megactor

项目地址:https://megactor.github.io/

MegActor是旷视研究院的最新研究成果。旷视研究院是旷视公司级研究机构,旨在通过基础创新突破AI技术边界,以工程创新实现技术到产品的快速转化。多年来,旷视研究院已成为全球领先的人工智能研究机构。

目前的人像视频生成领域中,许多工作通常使用高质量的闭源数据进行训练,以追求更好的效果。而旷视研究院始终坚持全面开源,确保实际效果的可复现性。MegActor的训练数据全部来自公开可获取的开源数据集,配合开源代码,使得感兴趣的从业者可以从头开始完整复现这些效果。

为了完全复刻原始视频的表情和动作,MegActor采用原始图像进行驱动,这与多数厂商使用的中间表示方法(如sketch、pose、landmark)不同,能够捕捉到细致的表情和运动信息。

旷视科技研究总经理范浩强表示,在AI视频生成领域,我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号,同时生成视频的保真度也不尽如人意。通过研究发现,使用原视频进行驱动,不仅降低了控制信号的门槛,更能生成保真且动作一致的视频。

具体来说,MegActor主要由两个阶段构成:

wKgaomaQp2yAMbsSAAINHxF7tf0305.png

使用ReferenceNet对参考图像进行特征提取,获取参考图像的外观和背景信息;

使用PoseGuider对输入视频进行运动和表情信息提取,将这些信息迁移到参考图像上。

虽然使用原始视频进行驱动能带来更丰富的表情细节和运动信息,但也存在ID泄露和背景干扰等挑战。为此,MegActor采用了条件扩散模型,引入了合成数据生成框架,创建具有一致动作和表情但不同身份ID的视频,以减轻ID泄露的问题。MegActor还分割了参考图像的前景和背景,并使用CLIP对背景细节进行编码,确保背景的稳定性。

在数据训练方面,旷视研究院团队使用公开数据集(VFHQ和CeleV)进行训练,总时长超过700小时。为了避免ID泄露问题,团队还使用换脸和风格化方法1:1生成合成数据,实现表情和动作一致但ID不一致的数据。此外,团队使用注视检测模型处理数据,获取大约5%的高质量数据进行Finetune训练。

wKgaomaQp4-Ad7nyAAIrJv12wFw194.png

通过新的模型框架和训练方法,旷视研究院团队仅使用了不到200块V100显卡小时的训练时长,最终实现了以下特性:

根据输入视频生成任意持续时间的模仿视频,确保角色身份一致性;

支持各种驱动视频,如演讲、唱歌、表情包等;

支持不同画风(照片、传统绘画、漫画、AI数字人等);

音频生成方法相比,MegActor生成的视频不仅能确保表情和动作一致,更能达到自然程度。

目前,MegActor已经完全开源,供开发者和用户即开即用。



审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296512
  • 开源
    +关注

    关注

    3

    文章

    4031

    浏览量

    45563
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI技术助力国家博物馆票务系统智慧化升级

    在文博旅游热潮之下,中国国家博物馆作为国家最高历史文化艺术殿堂,观众接待量呈现井喷式增长。为进一步提升观众的通行效率和通行体验,利用最新的AI技术为国家博物馆量身打造了一套完整的人机核验闸机,通过身份核验闸机建设和票务系统对
    的头像 发表于 11-27 17:07 618次阅读

    开源鸿蒙MNN AI应用开发与MNN移植经验

    本期内容由AI Model SIG提供,介绍了在开源鸿蒙中,利用MNN开源框架开发AI应用以及基于MNN源码编译与Har封装的方法。
    的头像 发表于 09-04 11:31 3636次阅读
    <b class='flag-5'>开源</b>鸿蒙MNN <b class='flag-5'>AI</b>应用开发与MNN移植经验

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    1. 项目概述 本项目旨在开发并部署一个高精度的深度学习模型,用于自动鉴别一张图片是由AI生成(如Stable Diffusion, DALL-E, Midjourney等工具生成)还是真实的画家
    发表于 08-21 13:59

    照片视频太普通?涂鸦On-App AI黑科技,让宠物/人像1秒C位出片!

    一键识别人/宠物并实现智能居中,点一下就能让照片/视频秒变质感大片呢?01涂鸦助你一键生成氛围感写真基于强大的On-AppAI技术架构,涂鸦重磅推出AI写真+
    的头像 发表于 08-14 18:55 882次阅读
    <b class='flag-5'>照片</b><b class='flag-5'>视频</b>太普通?涂鸦On-App <b class='flag-5'>AI</b>黑科技,让宠物/人像1秒C位出片!

    生成AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您系统梳理AI驱动的4D场景
    的头像 发表于 08-06 11:20 4771次阅读
    <b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 重塑自动驾驶仿真:4D 场景<b class='flag-5'>生成</b>技术的<b class='flag-5'>突破</b>与实践

    上传压缩的时候总是显示上传失败,为什么?

    上传压缩的时候总是显示上传失败是说明原因
    发表于 07-23 08:17

    携手曙光云与中科天玑合作打造城市智能空间

    近日,北京科技有限公司(以下简称“”)、曙光云计算集团股份有限公司(以下简称“曙光云”)与中科天玑数据科技股份有限公司(以下简称“中科天玑”)在北京举行了合作会谈,三方将在互联
    的头像 发表于 03-20 09:13 1076次阅读

    发布AIS算法生产平台V5.0版本

    近日,正式发布自研的算法生产平台AIS(AI Service)5.0版!此次升级,包括接入DeepSeek等三大核心能力重磅亮相,助力企业AI生产力再跃升!
    的头像 发表于 03-12 17:18 1333次阅读

    运动猿入选2024年度智能体育典型案例

    2025年3月3日,工业和信息化部、国家体育总局联合公布了“2024年度智能体育典型案例”名单,“运动猿智能体育教育产品方案”成功入选,成为智能青少年体育产品方向的典型案例。此次获评是对
    的头像 发表于 03-10 10:04 835次阅读

    AI Agent 应用与项目实战》----- 学习如何开发视频应用

    AI助手”功能。 根据需求选择助手类型,例如应用助手、知识助手或对话助手。对于视频生成应用,可能需要结合应用助手和对话助手的功能。 完成助手的基础配置,包括动作意图、知识库和对话模型等。这里可以上传
    发表于 03-05 19:52

    AI赋能锐测控平台

    自2016年成立以来,简仪科技致力于打造基于开源技术的锐测控平台(SeeSharp Platform),建设测控开源生态圈。得益于OpenAI、ChatGPT、DeepSeek、通义千问等A
    的头像 发表于 02-10 09:23 866次阅读
    <b class='flag-5'>AI</b>赋能锐<b class='flag-5'>视</b>测控平台

    国内生成AI备案数量突破300款

    服务数量高达238款,占据了总备案数量的绝大部分,充分展示了该领域技术创新和市场需求的强劲动力。这一快速增长不仅反映了国内企业在生成AI技术上的不断突破,也体现了市场对该类服务的广泛认可和热烈追捧。 除了直接备案的
    的头像 发表于 01-09 11:14 1141次阅读

    中标北京市大数据中心感知管理服务平台二期建设项目

    近日,成功中标北京市大数据中心感知管理服务平台(二期)建设项目,此次中标不仅是对技术实力和服务能力的认可,更标志着
    的头像 发表于 12-31 09:20 1178次阅读

    Lightricks与Shutterstock携手,推动开源LTXV视频人工智能生成视频模型发展

    ,Lightricks将能够利用高质量HD和4K视频素材,进一步训练其开源视频生成模型——LTX Video(LTXV)。 Lightricks成为首个在Shutterstock行业首创
    的头像 发表于 12-15 09:31 730次阅读
    Lightricks与Shutterstock携手,推动<b class='flag-5'>开源</b>LTXV<b class='flag-5'>视频</b>人工智能<b class='flag-5'>生成</b>式<b class='flag-5'>视频</b>模型发展

    OpenAI推出AI视频生成模型Sora

    近日,备受期待的OpenAI再次推出了其创新之作——AI视频生成模型Sora。这一新品的发布,无疑为AI技术注入了新的活力。 据悉,Sora与OpenAI旗下的AI工具DALL-E有着
    的头像 发表于 12-12 09:40 1062次阅读