0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

旷视AI开源新突破:上传照片即可生成表情包视频!

AI机械姬 来源:AI机械姬 作者:AI机械姬 2024-07-12 11:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

日前,旷视科技发布了一项新的开源AI人像视频生成框架——MegActor。该框架让用户只需输入一张静态肖像图片和一段视频(如演讲、表情包、rap),便可生成一段表情丰富、动作一致的AI人像视频。生成的视频长度取决于输入的视频长度。与阿里EMO、微软VASA等最新AI视频模型不同,旷视MegActor采用开源方式,供开发者社区使用。MegActor生成的视频画质更出色,面部细节更加丰富自然。

wKgZomaQp8CARJnFAAAUzJBUboU053.png

为了展示其泛化性,MegActor甚至可以将VASA中的人物肖像和视频组合生成,得到生动的表情视频。即使与阿里EMO的官方案例相比,MegActor也能生成近似的效果。

wKgaomaQp0qAR1g4AAGuNBaURo8083.png

总的来说,无论是让肖像开口说话、唱歌、模仿搞怪表情包,MegActor都能生成逼真的效果。

论文链接:https://arxiv.org/abs/2405.20851

代码地址:https://github.com/megvii-research/megactor

项目地址:https://megactor.github.io/

MegActor是旷视研究院的最新研究成果。旷视研究院是旷视公司级研究机构,旨在通过基础创新突破AI技术边界,以工程创新实现技术到产品的快速转化。多年来,旷视研究院已成为全球领先的人工智能研究机构。

目前的人像视频生成领域中,许多工作通常使用高质量的闭源数据进行训练,以追求更好的效果。而旷视研究院始终坚持全面开源,确保实际效果的可复现性。MegActor的训练数据全部来自公开可获取的开源数据集,配合开源代码,使得感兴趣的从业者可以从头开始完整复现这些效果。

为了完全复刻原始视频的表情和动作,MegActor采用原始图像进行驱动,这与多数厂商使用的中间表示方法(如sketch、pose、landmark)不同,能够捕捉到细致的表情和运动信息。

旷视科技研究总经理范浩强表示,在AI视频生成领域,我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号,同时生成视频的保真度也不尽如人意。通过研究发现,使用原视频进行驱动,不仅降低了控制信号的门槛,更能生成保真且动作一致的视频。

具体来说,MegActor主要由两个阶段构成:

wKgaomaQp2yAMbsSAAINHxF7tf0305.png

使用ReferenceNet对参考图像进行特征提取,获取参考图像的外观和背景信息;

使用PoseGuider对输入视频进行运动和表情信息提取,将这些信息迁移到参考图像上。

虽然使用原始视频进行驱动能带来更丰富的表情细节和运动信息,但也存在ID泄露和背景干扰等挑战。为此,MegActor采用了条件扩散模型,引入了合成数据生成框架,创建具有一致动作和表情但不同身份ID的视频,以减轻ID泄露的问题。MegActor还分割了参考图像的前景和背景,并使用CLIP对背景细节进行编码,确保背景的稳定性。

在数据训练方面,旷视研究院团队使用公开数据集(VFHQ和CeleV)进行训练,总时长超过700小时。为了避免ID泄露问题,团队还使用换脸和风格化方法1:1生成合成数据,实现表情和动作一致但ID不一致的数据。此外,团队使用注视检测模型处理数据,获取大约5%的高质量数据进行Finetune训练。

wKgaomaQp4-Ad7nyAAIrJv12wFw194.png

通过新的模型框架和训练方法,旷视研究院团队仅使用了不到200块V100显卡小时的训练时长,最终实现了以下特性:

根据输入视频生成任意持续时间的模仿视频,确保角色身份一致性;

支持各种驱动视频,如演讲、唱歌、表情包等;

支持不同画风(照片、传统绘画、漫画、AI数字人等);

音频生成方法相比,MegActor生成的视频不仅能确保表情和动作一致,更能达到自然程度。

目前,MegActor已经完全开源,供开发者和用户即开即用。



审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41317

    浏览量

    302701
  • 开源
    +关注

    关注

    3

    文章

    4368

    浏览量

    46467
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    可灵推出AI原生4K直出功能:开启AI视频生成“院线级”新纪元

    4月23日,可灵AI视频3.0系列模型中推出业内首个原生4K直出功能,以“无需后期、直出4K”的颠覆性能力,直接匹配影视行业4K制作标准,标志着AI视频生成技术从“内容
    的头像 发表于 04-27 13:39 407次阅读

    做智能体硬件的敏捷法则

    对话硬件研发负责人王飞:当算法从“感知”走向“行动”,硬件如何成为智能体的最佳载体?
    的头像 发表于 04-15 09:34 489次阅读

    NVIDIA和ComfyUI携手简化本地AI视频生成工作流

    借助 ComfyUI 的应用视图、NVIDIA RTX Video 超分辨率和全新的 NVFP4 模型,AI 驱动的视频生成更加易用。
    的头像 发表于 03-14 16:37 2531次阅读
    NVIDIA和ComfyUI携手简化本地<b class='flag-5'>AI</b><b class='flag-5'>视频生成</b>工作流

    欢迎使用中国香河英茂科工豆包智能体

    照片生成Q版/成人形象 → 调整细节 用于合拍、虚拟互动、直播 3. 专业平台(腾讯云/讯飞/HeyGen) 上传3分钟口播视频+100句语音 平台自动
    发表于 02-14 07:22

    美泰开源事业部实训箱

    美泰实训平台采用模块化设计,集成了开源鸿蒙、AI计算与机器人控制等核心模块。通过标准化的硬件接口与完善的软件开发环境,将美泰技术一体打包,让开发像搭积木一样简单,助力学生快速开展从
    发表于 01-16 09:10 1次下载

    积极参与国家人工智能应用中试基地建设

    12月4日,“AI终端共创未来”国家人工智能应用中试基地(深圳、东莞)发布会在珠海举行。此次发布会响应国家“人工智能+”战略,旨在汇聚粤港澳大湾区产业优势资源,推动AI+移动终端领域高质量发展,共同打造世界级AI终端产业创新高地
    的头像 发表于 12-15 11:50 560次阅读

    AI技术助力国家博物馆票务系统智慧化升级

    在文博旅游热潮之下,中国国家博物馆作为国家最高历史文化艺术殿堂,观众接待量呈现井喷式增长。为进一步提升观众的通行效率和通行体验,利用最新的AI技术为国家博物馆量身打造了一套完整的人机核验闸机,通过身份核验闸机建设和票务系统对
    的头像 发表于 11-27 17:07 1096次阅读

    开源鸿蒙MNN AI应用开发与MNN移植经验

    本期内容由AI Model SIG提供,介绍了在开源鸿蒙中,利用MNN开源框架开发AI应用以及基于MNN源码编译与Har封装的方法。
    的头像 发表于 09-04 11:31 5049次阅读
    <b class='flag-5'>开源</b>鸿蒙MNN <b class='flag-5'>AI</b>应用开发与MNN移植经验

    科技AIBOX双版本重磅发布!本地安全与全球适配,解锁视频智能新可能

    未来,腾科技将继续深耕AI边缘计算与视频分析技术,为更多行业打造“量身定制”的智能解决方案,让科技真正服务于业务创新!即刻联系腾科技,解锁你的专属
    的头像 发表于 08-27 14:00 2181次阅读
    腾<b class='flag-5'>视</b>科技AIBOX双版本重磅发布!本地安全与全球适配,解锁<b class='flag-5'>视频</b>智能新可能

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    1. 项目概述 本项目旨在开发并部署一个高精度的深度学习模型,用于自动鉴别一张图片是由AI生成(如Stable Diffusion, DALL-E, Midjourney等工具生成)还是真实的画家
    发表于 08-21 13:59

    照片视频太普通?涂鸦On-App AI黑科技,让宠物/人像1秒C位出片!

    一键识别人/宠物并实现智能居中,点一下就能让照片/视频秒变质感大片呢?01涂鸦助你一键生成氛围感写真基于强大的On-AppAI技术架构,涂鸦重磅推出AI写真+
    的头像 发表于 08-14 18:55 1497次阅读
    <b class='flag-5'>照片</b><b class='flag-5'>视频</b>太普通?涂鸦On-App <b class='flag-5'>AI</b>黑科技,让宠物/人像1秒C位出片!

    生成AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您系统梳理AI驱动的4D场景
    的头像 发表于 08-06 11:20 5407次阅读
    <b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 重塑自动驾驶仿真:4D 场景<b class='flag-5'>生成</b>技术的<b class='flag-5'>突破</b>与实践

    上传压缩的时候总是显示上传失败,为什么?

    上传压缩的时候总是显示上传失败是说明原因
    发表于 07-23 08:17

    微软开源GitHub Copilot Chat,AI编程迎来新突破

    30分,微软首席执行官Satya Nadella向大家展示了VS Code的最新AI开源编辑器GitHub Copilot Chat。 GitHub Copilot Chat的一大技术亮点是其支持
    的头像 发表于 07-02 09:34 1453次阅读
    微软<b class='flag-5'>开源</b>GitHub Copilot Chat,<b class='flag-5'>AI</b>编程迎来新<b class='flag-5'>突破</b>

    4K、多模态、长视频AI视频生成的下一个战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可生成多镜头无缝切换的1080P高品质
    的头像 发表于 06-16 00:13 7587次阅读