0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云视频生成技术创新!视频生成使用了哪些AI技术和算法

Carol Li 来源:电子发烧友 作者:李弯弯 2024-05-08 00:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)日前,阿里云宣布通义实验室研发的视频生成模型EMO正式上线通义App,免费对所有人开放。借助这一功能,用户可以在歌曲、热梗、表情包中任选一款模板,然后通过上传一张肖像照片就能让 EMO 合成演戏唱歌视频。

阿里云在视频生成领域的创新

EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院开发的框架,一个音频驱动的 AI 肖像视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。

据介绍,通义 App 首批上线了80多个 EMO 模板,包括热门歌曲《上春山》《野狼 Disco》等,还有网络热梗“钵钵鸡”“回手掏”等。EMO自2月底公布模型论文以来,在海内外引发广泛关注,并与OpenAI的Sora模型相提并论。

具体来看,EMO的功能包括,音频驱动的视频生成,通过输入一段音频(如语音、歌曲等)和一张参考图片(通常是人物的肖像),就能生成一个动态的、与音频内容同步的视频。

阿里EMO使用先进的音视频扩散模型和注意力机制,能够生成具有高度真实感和丰富表现力的肖像视频。肖像的表情和动作会非常自然和流畅,与音频内容紧密同步。

阿里EMO的应用场景非常广泛。它不仅可以用于娱乐和创作领域,如让历史人物“复活”、为电影角色配音等,还可以用于教育、广告、游戏等多个领域,为用户提供更多样化、个性化的视频内容。

另外,阿里EMO采用高效的算法和计算框架,能够在较短的时间内生成高质量的肖像视频。这为用户节省了大量的时间成本,提高了工作效率。

阿里EMO的框架还具有良好的可扩展性和灵活性,可以根据用户的具体需求进行定制和优化。例如,可以通过调整参数或添加新的模型组件来优化生成视频的质量和性能。

阿里在视频生成领域做过非常多创新,此前还推出过VideoComposer,这是一个结合了空间条件和时序条件的视频生成框架。它利用单张图像或草图作为空间条件,同时结合运动矢量和深度序列等时序条件,来生成具有高度视觉逼真度的视频。

阿里云还发布了AtomoVideo模型,这是一种能够从单一静态图像生成高保真视频序列的技术。它结合了个性化文本到图像(T2I)模型,能够根据文字描述和静态图片生成符合描述的视频内容。

此外,阿里云视觉智能开放平台提供了丰富的视频生产能力,包括视频摘要、视频编辑、视频人脸融合等功能。这些功能可以应用于电商、影视、广告等多个领域,帮助用户快速生成高质量的视频内容。

视频生成使用到的AI技术和算法

视频生成是一个涉及多个步骤和技术的过程,目前国内外有多款视频生成工具,如Pixverse、Pika、Runway Gen-2、Kaiber、Plaiday、Genmo等。其中,Pika因其高质量和稳定的画面生成能力而受到用户好评,Runway Gen-2则可以将midjourney生成的图像转换为高质量动画。另外,Sora作为一款新兴的视频生成工具,其独特之处在于能够生成高质量的长视频内容,并理解长文本指令以生成详尽细节的视频内容。

从算法的角度来看,视频生成涉及到一些基本的算法和技术。例如,循环神经网络(RNN)中的GRU和LSTM可以有效避免梯度下降和衰减的问题,而encoder-decoder架构则使得机器翻译等任务的效果大幅提升。在视频生成领域,这些算法和技术可能用于生成视频的内容、结构、风格等方面。

视频生成采用了相当多的技术,包括深度学习模型,这是视频生成中最为关键的技术之一。深度学习模型,特别是生成对抗网络(GANs)和变分自编码器(VAEs),被广泛应用于视频生成中。这些模型能够学习并模仿视频数据的分布,从而生成新的、与原始数据相似的视频。

计算机图形学,它在视频生成中扮演着重要角色,特别是在创建虚拟场景、角色和特效时。通过计算机图形学技术,可以生成逼真的虚拟场景和角色,并将其与真实视频相结合,创造出独特的视觉效果。

物理模拟,为了生成更逼真的视频,物理模拟技术被用来模拟物体的运动和交互。这包括模拟物体的运动轨迹、碰撞效果、光影变化等,以使得生成的视频更加真实可信。

自然语言处理,随着技术的发展,自然语言处理(NLP)也被应用于视频生成中。通过解析文本描述,NLP技术可以指导视频生成模型生成与文本内容相匹配的视频。这为视频生成提供了更多的创意和可能性。

还有音频合成技术,除了视觉元素外,音频也是视频的重要组成部分。音频合成技术可以生成与视频内容相匹配的音效和背景音乐,从而提升视频的观看体验。此外,还有一些其他的技术也被用于视频生成中,如增强学习、迁移学习等。这些技术使得视频生成更加灵活、高效和多样化。

写在最后

经过近些年的发展,视频生成技术也逐渐成熟,并且在新闻报道、广告制作、教育培训、电影与游戏制作、医疗健康等领域有不少实际的应用案例。未来,娱乐与媒体、广告与营销、教育培训、虚拟现实/增强现实、医疗健康等都将会成为视频生成技术的主流应用。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4761

    浏览量

    97147
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296672
  • 阿里云
    +关注

    关注

    3

    文章

    1028

    浏览量

    45502
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    全球首个动漫专属AI视频生成平台Animon,国内版"萌动AI"正式发布

    Animon国内版——"萌动AI"首秀:AI动漫创作进入全民时代 北京2025年9月25日 /美通社/ -- CreateAI(OTC:TSPH)今日宣布,其打造的全球首个专注于动漫的AI视频
    的头像 发表于 09-25 12:33 544次阅读

    4K、多模态、长视频AI视频生成的下一个战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可生成多镜头无缝切换的1080P高品质
    的头像 发表于 06-16 00:13 6936次阅读

    AI Agent 应用与项目实战》----- 学习如何开发视频应用

    开发一个视频内容生成Agent。 访问语聚AI平台官网 ,进行注册或登录。 在平台首页,了解语聚AI的功能和应用场景,特别是其支持的视频生成
    发表于 03-05 19:52

    字节跳动即将推出多模态视频生成模型OmniHuman

    一条完整的AI视频。 据即梦AI相关负责人透露,OmniHuman模型在研发过程中融入了前沿的人工智能技术,通过复杂的算法和深度学习机制,实
    的头像 发表于 02-08 10:53 1128次阅读

    阿里妈妈“淘宝星辰·图生视频”商用上线

    近日,阿里妈妈宣布其自研的淘宝星辰视频生成大模型已成功转化为商用级应用——淘宝星辰·图生视频。这一创新性的AI工具现已正式对淘宝、天猫商家开
    的头像 发表于 01-16 10:43 1085次阅读

    阿里通义万相2.1视频生成模型震撼发布

    近日,阿里旗下的通义万相迎来了重要升级,正式推出了全新的万相2.1视频生成模型。这一创新成果标志着阿里
    的头像 发表于 01-13 10:00 1127次阅读

    Google两款先进生成AI模型登陆Vertex AI平台

    新的 AI 模型,包括最先进的视频生成模型Veo以及最高品质的图像生成模型Imagen 3。近日,我们在 Google Cloud 上进一步推动这一势头,客户可以在Vertex AI
    的头像 发表于 12-30 09:56 982次阅读

    华为 Flexus 服务器 X 实例 Windows 系统部署一键短视频生成 AI 工具 moneyprinter

    在追求创新与效率并重的今天,我们公司迎难而上,决定自主搭建一款短视频生成 AI 工具——MoneyPrinter,旨在为市场带来前所未有的创意风暴。面对服务器选择的难题,我们经过深思熟虑与多方比较
    的头像 发表于 12-30 09:10 962次阅读
    华为<b class='flag-5'>云</b> Flexus <b class='flag-5'>云</b>服务器 X 实例 Windows 系统部署一键短<b class='flag-5'>视频生成</b> <b class='flag-5'>AI</b> 工具 moneyprinter

    OpenAI暂不推出Sora视频生成模型API

    OpenAI近日宣布,目前暂无推出其视频生成模型Sora的应用程序接口(API)的计划。Sora模型能够基于文本和图像生成视频,引发了广泛关注。然而,由于访问量远超预期,OpenAI此前不得不紧急
    的头像 发表于 12-20 14:23 972次阅读

    Luma AI Ray 2视频模型即将发布

    能够在短短10秒内,根据用户提供的文本和图像提示,生成高质量的视频内容。 Luma AI Ray 2视频模型是Luma AI
    的头像 发表于 12-20 11:37 982次阅读

    巨人网络发布“千影”大模型,加速“游戏+AI”布局

     QianYing”大模型集成了游戏视频生成大模型YingGame和视频配音大模型YingSound两大核心模块,实现了有声可交互游戏视频生成的新突破。这一技术的问世,不仅丰富了游戏的
    的头像 发表于 12-16 09:45 1946次阅读

    Lightricks与Shutterstock携手,推动开源LTXV视频人工智能生成视频模型发展

    ,Lightricks将能够利用高质量HD和4K视频素材,进一步训练其开源视频生成模型——LTX Video(LTXV)。 Lightricks成为首个在Shutterstock行业首创
    的头像 发表于 12-15 09:31 734次阅读
    Lightricks与Shutterstock携手,推动开源LTXV<b class='flag-5'>视频</b>人工智能<b class='flag-5'>生成</b>式<b class='flag-5'>视频</b>模型发展

    中国电信发布自研视频生成大模型

    ,中国电信隆重发布了首个由央企全自研的视频生成大模型。该模型采用了创新的“VAST(Video As Storyboard from Text)二阶段视频生成
    的头像 发表于 12-13 15:40 849次阅读

    OpenAI推出AI视频生成模型Sora

    近日,备受期待的OpenAI再次推出了其创新之作——AI视频生成模型Sora。这一新品的发布,无疑为AI技术注入了新的活力。 据悉,Sora
    的头像 发表于 12-12 09:40 1063次阅读

    OpenAI开放Sora视频生成模型

    OpenAI近日宣布,其倾力打造的人工智能视频生成系统Sora已正式向美国及其他市场的ChatGPT Plus订阅用户开放。自去年首次公开预览以来,Sora历经约10个月的精心研发与优化,现已全面
    的头像 发表于 12-10 11:16 1075次阅读