0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云视频生成技术创新!视频生成使用了哪些AI技术和算法

Carol Li 来源:电子发烧友 作者:李弯弯 2024-05-08 00:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)日前,阿里云宣布通义实验室研发的视频生成模型EMO正式上线通义App,免费对所有人开放。借助这一功能,用户可以在歌曲、热梗、表情包中任选一款模板,然后通过上传一张肖像照片就能让 EMO 合成演戏唱歌视频。

阿里云在视频生成领域的创新

EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院开发的框架,一个音频驱动的 AI 肖像视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。

据介绍,通义 App 首批上线了80多个 EMO 模板,包括热门歌曲《上春山》《野狼 Disco》等,还有网络热梗“钵钵鸡”“回手掏”等。EMO自2月底公布模型论文以来,在海内外引发广泛关注,并与OpenAI的Sora模型相提并论。

具体来看,EMO的功能包括,音频驱动的视频生成,通过输入一段音频(如语音、歌曲等)和一张参考图片(通常是人物的肖像),就能生成一个动态的、与音频内容同步的视频。

阿里EMO使用先进的音视频扩散模型和注意力机制,能够生成具有高度真实感和丰富表现力的肖像视频。肖像的表情和动作会非常自然和流畅,与音频内容紧密同步。

阿里EMO的应用场景非常广泛。它不仅可以用于娱乐和创作领域,如让历史人物“复活”、为电影角色配音等,还可以用于教育、广告、游戏等多个领域,为用户提供更多样化、个性化的视频内容。

另外,阿里EMO采用高效的算法和计算框架,能够在较短的时间内生成高质量的肖像视频。这为用户节省了大量的时间成本,提高了工作效率。

阿里EMO的框架还具有良好的可扩展性和灵活性,可以根据用户的具体需求进行定制和优化。例如,可以通过调整参数或添加新的模型组件来优化生成视频的质量和性能。

阿里在视频生成领域做过非常多创新,此前还推出过VideoComposer,这是一个结合了空间条件和时序条件的视频生成框架。它利用单张图像或草图作为空间条件,同时结合运动矢量和深度序列等时序条件,来生成具有高度视觉逼真度的视频。

阿里云还发布了AtomoVideo模型,这是一种能够从单一静态图像生成高保真视频序列的技术。它结合了个性化文本到图像(T2I)模型,能够根据文字描述和静态图片生成符合描述的视频内容。

此外,阿里云视觉智能开放平台提供了丰富的视频生产能力,包括视频摘要、视频编辑、视频人脸融合等功能。这些功能可以应用于电商、影视、广告等多个领域,帮助用户快速生成高质量的视频内容。

视频生成使用到的AI技术和算法

视频生成是一个涉及多个步骤和技术的过程,目前国内外有多款视频生成工具,如Pixverse、Pika、Runway Gen-2、Kaiber、Plaiday、Genmo等。其中,Pika因其高质量和稳定的画面生成能力而受到用户好评,Runway Gen-2则可以将midjourney生成的图像转换为高质量动画。另外,Sora作为一款新兴的视频生成工具,其独特之处在于能够生成高质量的长视频内容,并理解长文本指令以生成详尽细节的视频内容。

从算法的角度来看,视频生成涉及到一些基本的算法和技术。例如,循环神经网络(RNN)中的GRU和LSTM可以有效避免梯度下降和衰减的问题,而encoder-decoder架构则使得机器翻译等任务的效果大幅提升。在视频生成领域,这些算法和技术可能用于生成视频的内容、结构、风格等方面。

视频生成采用了相当多的技术,包括深度学习模型,这是视频生成中最为关键的技术之一。深度学习模型,特别是生成对抗网络(GANs)和变分自编码器(VAEs),被广泛应用于视频生成中。这些模型能够学习并模仿视频数据的分布,从而生成新的、与原始数据相似的视频。

计算机图形学,它在视频生成中扮演着重要角色,特别是在创建虚拟场景、角色和特效时。通过计算机图形学技术,可以生成逼真的虚拟场景和角色,并将其与真实视频相结合,创造出独特的视觉效果。

物理模拟,为了生成更逼真的视频,物理模拟技术被用来模拟物体的运动和交互。这包括模拟物体的运动轨迹、碰撞效果、光影变化等,以使得生成的视频更加真实可信。

自然语言处理,随着技术的发展,自然语言处理(NLP)也被应用于视频生成中。通过解析文本描述,NLP技术可以指导视频生成模型生成与文本内容相匹配的视频。这为视频生成提供了更多的创意和可能性。

还有音频合成技术,除了视觉元素外,音频也是视频的重要组成部分。音频合成技术可以生成与视频内容相匹配的音效和背景音乐,从而提升视频的观看体验。此外,还有一些其他的技术也被用于视频生成中,如增强学习、迁移学习等。这些技术使得视频生成更加灵活、高效和多样化。

写在最后

经过近些年的发展,视频生成技术也逐渐成熟,并且在新闻报道、广告制作、教育培训、电影与游戏制作、医疗健康等领域有不少实际的应用案例。未来,娱乐与媒体、广告与营销、教育培训、虚拟现实/增强现实、医疗健康等都将会成为视频生成技术的主流应用。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4804

    浏览量

    98537
  • AI
    AI
    +关注

    关注

    91

    文章

    41101

    浏览量

    302577
  • 阿里云
    +关注

    关注

    3

    文章

    1046

    浏览量

    45866
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    昆仑万维天工AI大模型SkyReels V4登上Artificial Analysis榜单全球第一

    、Google Veo 3.1、Vidu Q3、OpenAI Sora 2等全球主流模型,成为全球AI视频生成能力最强的大模型,标志中国AI视频生成
    的头像 发表于 03-26 10:10 937次阅读

    NVIDIA和ComfyUI携手简化本地AI视频生成工作流

    借助 ComfyUI 的应用视图、NVIDIA RTX Video 超分辨率和全新的 NVFP4 模型,AI 驱动的视频生成更加易用。
    的头像 发表于 03-14 16:37 2491次阅读
    NVIDIA和ComfyUI携手简化本地<b class='flag-5'>AI</b><b class='flag-5'>视频生成</b>工作流

    商汤科技日日新Seko系列模型与寒武纪成功适配

    12月15日,商汤科技基于在生成AI与多模态交互领域的技术积累,正式发布Seko2.0——行业首个多剧集生成智能体。该智能体在多剧集视频生成
    的头像 发表于 12-17 14:06 597次阅读

    OpenAI Sora 2模型上线微软Azure AI Foundry国际版

    我们非常激动地宣布,OpenAI 的新一代多模态视频生成模型 Sora 2 现已在 Azure AI Foundry(国际版)上线,进入公共预览阶段。
    的头像 发表于 10-22 09:44 960次阅读
    OpenAI Sora 2模型上线微软Azure <b class='flag-5'>AI</b> Foundry国际版

    全球首个动漫专属AI视频生成平台Animon,国内版&quot;萌动AI&quot;正式发布

    Animon国内版——"萌动AI"首秀:AI动漫创作进入全民时代 北京2025年9月25日 /美通社/ -- CreateAI(OTC:TSPH)今日宣布,其打造的全球首个专注于动漫的AI视频
    的头像 发表于 09-25 12:33 1326次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    AI的应用多种多样。比如:DALL-E2、Midjourney、Stable Diffusion等,不仅包括对话功能,还包括生成图像、视频、语音和程序代码等功能。 竟然连代码都可以生成
    发表于 09-12 16:07

    生成AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等
    的头像 发表于 08-06 11:20 5377次阅读
    <b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 重塑自动驾驶仿真:4D 场景<b class='flag-5'>生成</b><b class='flag-5'>技术</b>的突破与实践

    百度重磅发布!全球首创中文音视频模型

    同步等核心技术突破,为广告商、影视创作者及中小企业提供高效、低成本的视频创作解决方案,重新定义了AI视频生成技术标准与应用边界。   从指
    的头像 发表于 07-11 09:18 4609次阅读

    一种基于扩散模型的视频生成框架RoboTransfer

    在机器人操作领域,模仿学习是推动具身智能发展的关键路径,但高度依赖大规模、高质量的真实演示数据,面临高昂采集成本与效率瓶颈。仿真器虽提供了低成本数据生成方案,但显著的“模拟到现实”(Sim2Real)鸿沟,制约了仿真数据训练策略的泛化能力与落地应用。
    的头像 发表于 07-09 14:02 945次阅读
    一种基于扩散模型的<b class='flag-5'>视频生成</b>框架RoboTransfer

    4K、多模态、长视频AI视频生成的下一个战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可生成多镜头无缝切换的1080P高品质
    的头像 发表于 06-16 00:13 7546次阅读

    AKOOL发布全球首款实时摄像头

    近日,硅谷新锐公司AKOOL发布全球首款实时摄像头Akool Live Camera,集虚拟数字人、AI视频翻译、实时换脸、实时AI视频生成四大功能于一身,重新定义了
    的头像 发表于 06-09 16:30 2416次阅读

    Dify携手亚马逊科技加速全球企业生成AI应用规模化落地

    简单易用的AI应用开发平台Dify通过深度集成亚马逊科技的生成AI技术服务,在保障性能、
    的头像 发表于 06-07 16:00 1013次阅读

    从Gartner报告看Atlassian在生成AI领域的创新路径与实践价值

    Atlassian入选Gartner 2025生成AI技术"新兴领导者"!其核心AI产品Rovo依托Teamwork Graph,支持从团队知识库中提取情境化的个性答案与洞察
    的头像 发表于 06-05 15:59 1269次阅读
    从Gartner报告看Atlassian在<b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>领域的<b class='flag-5'>创新</b>路径与实践价值

    SAP与亚马逊科技推出AI联合创新计划,打造生成AI解决方案,助力客户应对市场波动与供应链复杂性

    北京 2025年5月26日 /美通社/ -- 在SAP蓝宝石大会上,亚马逊科技与SAP宣布启动全新的AI联合创新计划,帮助合作伙伴构建生成AI
    的头像 发表于 05-26 16:54 657次阅读

    SAP与亚马逊科技推出AI联合创新计划,打造生成AI解决方案, 助力客户应对市场波动与供应链复杂性

    北京 ——2025 年 5 月 26 日 在SAP蓝宝石大会上,亚马逊科技与SAP宣布启动全新的AI联合创新计划,帮助合作伙伴构建生成AI
    发表于 05-26 11:44 1220次阅读