0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI视频创作一条龙!达摩院“寻光”平台炸场WAIC,突破可控编辑难题

卡奥斯开源社区 来源:jf_92107760 作者:jf_92107760 2024-07-09 18:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

卡奥斯智能交互引擎是卡奥斯基于海尔近40年工业生产经验积累和卡奥斯7年工业互联网平台建设的最佳实践,基于大语言模型和RAG技术,集合海量工业领域生态资源方优质产品和知识服务,旨在通过智能搜索、连续交互,实时生成个性化的内容和智能化产品推荐,为用户提供快速、可靠的交互式搜索服务,首创了聚焦工业领域的智能交互引擎。

详情戳:卡奥斯智能交互引擎

AIGC时代,视频创作这事儿真的不一样了。

就像这样,轻轻一圈,选定目标立刻变身单独图层,再丝滑嵌入不同的背景视频,场景变换so easy~

wKgaomaNDo6AR2pSAB1uboTkOdo152.gifwKgZomaNDpCAS3fcAC3awFqdVQg861.gif

想要调整一下镜头角度,交给AI,同样能一键完成:

wKgZomaNDpKAD0bYACLCtNQOdNo851.gif

还能一键消除、修改目标:

wKgZomaNDpSAJ76DAH1qC9l9eeQ809.gif

后期再也不用加班加到手抽筋(doge)。

划!重!点!这还不是实验室里的单一技术demo,而是马上就要开放内测,让创作者们直接可以用起来的一站式AI视频创作平台——“寻光”。

就是说,传统上分散在不同制作流程中的剧本创作、分镜图设计、视频素材编辑等步骤,现在都可以在AI加持下,在同一个平台上流畅完成。

这就是阿里达摩院在上海世界人工智能大会上带来的最新惊喜。

演示一出,现场的观众都坐不住了。

wKgaomaNDpeAPdlRAAGtTIkTDyQ062.jpg

而达摩院官方,也透露出了AI视频领域新成果背后更大的“野心”:

不对标Sora,而是走自己的路,希望更快让AI生产力匹配人类想象力

“寻梦光影间”

所谓寻光,意指“寻梦光影间”:

即通过人工智能技术,提供全新的视频创作模式。

wKgZomaNDpeAZgmKAADOPZ0QVVw690.jpg

与Sora等今年备受关注的AI视频生成模型不同,寻光关注到的,是“Sora之后,视频工作流的变革”。

达摩院认为,Sora等AI视频生成模型给足了人们对视频生产方式彻底变革的想象力,但一方面,AI视频内容的可控编辑,包括对复杂剧情的理解、生成对象的一致性等,仍然是当前算法所面临的一大挑战。

另一方面,业界尚没有统一的AI视频编辑平台,能让创作者们一站式体验到AI加持的视频创作全流程。

举个例子,OpenAI创始成员Andrej Karpathy最近也玩上了AI视频,整出了个AI版《傲慢与偏见》。

wKgaomaNDpiAOWo2AAKn0uuR_sI796.jpg

在这个短片的制作过程中,他用到的工具包括Claude、Ideogram、Luma、ElevenLabs、VEED……而他本人也抱怨说:

老实说这个工作流非常混乱,工具与工具之间存在大量的复制粘贴,3个片段的简单小视频就花了我大约1个小时的时间。
这里面存在一个巨大的机会。谁正在打造100%的AI原生视频制作平台?

达摩院打造寻光,定位为PUGC一站式AI视频创作平台,目标正是针对以上问题,用AI能力重塑传统视频制作的全流程

具体来说,寻光可以辅助用户创作剧本、分镜图等,支持对生成及上传素材进行丰富的AI编辑,包括人物控制、场景控制、运镜控制、目标新增/消除/修改等10多种功能。

wKgZomaNDpiAS-tLAAE9HV54ZVw851.jpg

并且在交互方面,主打“让视频编辑像操作PPT一样简单”

以分镜设计环节为例,上传到寻光的原始视频素材,会由算法切分成多个分镜头。

在创作空间里,用户可以方便地查看到每一个分镜头,并用简单的拖拽操作对其进行调整。

在新建的空白分镜中,除了添加已有素材,寻光平台还支持用户调用多种多模态生成模型,生产新的内容。

wKgaomaNDpmANaB-AAESfyvvQXc330.jpg

而在编辑功能方面,寻光强调的是精细化的编辑和控制:在AI加持下,依据用户意图,在语义层面而不是像素层面实现编辑;同时,视频里的人体、人脸、前景、背景等任意局部目标,都可以进行精细化的编辑和修改。

在现场,达摩院视觉技术实验室高级算法专家陈威华着重提到了基于视频图层的编辑能力

以前景图层功能为例,用户通过文本输入,即可生成符合描述的、具有透明背景的视频,并且一键就能将其融合到其他背景视频当中。

wKgZomaNDpqAXsWtADDSKWQb4IU629.gif

寻光也支持图层拆解功能,用户在视频第一帧选择想要提取的物体,算法就会自动跟踪,把整段视频中对应的目标拆解出来,形成独立的带透明背景的视频图层。

飘动的头发也扣得很精细的那种:

wKgZomaNDpyAXZkOAAPnGk2nWZM681.gif

另外,在对视频全局元素的编辑方面,风格迁移上,寻光平台提供了20+不同风格。

wKgaomaNDp6AcfFwAFySxVBqiZ4748.gif

运镜控制上,左右平移、上下平移、推进拉远、左右环绕等都能支持。

wKgZomaNDqCAHxsHAAFm8YcDJjs066.jpg

在对视频局部元素的编辑方面,除了目标消除,寻光平台还能实现人脸的精准控制:

视频取自国风武侠动漫《少年白马醉春风》第三集

轻轻一拉实现运动控制:

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38111

    浏览量

    296656
  • 人工智能
    +关注

    关注

    1813

    文章

    49739

    浏览量

    261548
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI图像与视频双引擎 欧莱雅CCH平台升级领跑美妆智能创作

    了高分答卷。依托图像与视频双引擎赋能,该平台致力于实现品牌多样化素材的集中化管理,并持续推动工作流程向极致高效与无缝协作的方向发展, 标志着平台正式迈入AI智能驱动的
    的头像 发表于 11-21 17:48 1123次阅读

    RISC-V创新中心与达摩合作签约

    10月30日,RISC-V创新中心与达摩合作签约暨创新发展交流会在苏州市集成电路创新中心隆重举行,来自全国各地的重点企业、科研机构、行业协会、投资机构等代表出席活动,共话RISC-V产业创新发展新图景。
    的头像 发表于 11-03 15:43 483次阅读

    全球首个动漫专属AI视频生成平台Animon,国内版"萌动AI"正式发布

    生成平台Animon正式推出国内版产品——"萌动AI",为数亿创作者带来视觉革命。该平台由专业的动漫制作团队和顶尖的AI技术团队联合打造,并
    的头像 发表于 09-25 12:33 544次阅读

    WAIC 2025:芯片企业竞逐AI新赛道!技术革新突破算力物理极限

    电子发烧友网报道(文/李弯弯) 2025年世界人工智能大会(WAIC 2025)上,全球芯片企业以“算力革命”为核心,展开了一场关于技术突破与生态构建的深度交流。从云端超算到端侧智能,从光电融合到存
    的头像 发表于 08-04 10:30 8736次阅读
    <b class='flag-5'>WAIC</b> 2025:芯片企业竞逐<b class='flag-5'>AI</b>新赛道!技术革新<b class='flag-5'>突破</b>算力物理极限

    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,释放 AI 发展新潜能

    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,释放 AI 发展新潜能
    的头像 发表于 07-28 11:33 880次阅读
    <b class='flag-5'>WAIC</b> 直击|Arm 邹挺:<b class='flag-5'>突破</b>基础设施、数据安全与人才三重挑战,释放 <b class='flag-5'>AI</b> 发展新潜能

    商汤大装置赋能WAIC 2025主题曲首发

    在2025世界人工智能大会(WAIC)上,首由AI创作的英文主题曲《AI For Good》引发了热烈关注。悠扬的旋律与激昂的歌词背后,是
    的头像 发表于 07-26 14:52 1180次阅读

    视频编解码标准H.266走向主流 头部视频平台渗透率超70%

    4月21日消息,视频技术前沿研究与应用研讨会近期在北京举行,活动由阿里巴巴达摩举办,中国网络视听协会副会长陶嘉庆等行业专家出席。达摩
    发表于 04-21 11:24 775次阅读
    新<b class='flag-5'>一</b>代<b class='flag-5'>视频</b>编解码标准H.266走向主流 头部<b class='flag-5'>视频</b><b class='flag-5'>平台</b>渗透率超70%

    普华基础软件莅临阿里巴巴达摩调研交流

    近日, 普华基础软件股份有限公司(以下简称普华基础软件)董事、总经理刘宏倩行前往阿里巴巴达摩(杭州)科技有限公司(以下简称达摩)调研交
    的头像 发表于 04-08 10:10 951次阅读

    高通骁8至尊版移动平台革新终端侧AI影像体验

    自智能手机时代以来,人们对于手机摄影的专业追求从未停歇。骁凭借前沿的影像和终端侧AI技术,持续引领移动计算摄影发展。最新的骁8至尊版移动平台,实现了
    的头像 发表于 03-31 11:09 1599次阅读

    AI Agent 应用与项目实战》----- 学习如何开发视频应用

    学习、自然语言处理(NLP)、计算机视觉(CV)等先进技术提供的强大的数据处理和分析能力。 在视频应用开发中,AI Agent可以用于视频内容分析、推荐、编辑等。 下面跟随作者的指导,
    发表于 03-05 19:52

    一条光纤怎么分两

    一条光纤可以通过以下方式分成两使用: 使用分光器 分光器是种光学器件,它可以将信号按照定的比例分成多路。通常,分光器有1:2、1:4
    的头像 发表于 02-25 10:07 3691次阅读

    华硕发布两款搭载骁X平台的全新AI PC

    近日,华硕正式发布了两款搭载骁X平台的全新AI PC——华硕无畏14 AI版与灵耀14 Air骁版。凭借骁
    的头像 发表于 02-24 15:44 1069次阅读

    新壹科技秒创平台接入DeepSeek,提升视频创作效率

    近日,新壹科技宣布了项重要合作,其旗下的视频创作平台“秒创”成功接入了DeepSeek平台。这
    的头像 发表于 02-20 09:20 712次阅读

    腾讯混元3D AI创作引擎正式发布

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这创新性的创作工具将为用户带来前所未有的3D内容创作体验,标志着腾讯在
    的头像 发表于 01-23 10:33 981次阅读

    腾讯混元3D AI创作引擎正式上线

    或上传张图片,该引擎便能迅速生成与之对应的3D模型。这功能极大地降低了3D内容创作的门槛,使得更多用户能够轻松涉足这领域。 除了基础的3D模型生成功能外,混元3D
    的头像 发表于 01-22 10:26 956次阅读