0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Sora还在PPT阶段,“中国版Sora”已经开放使用了!

Hobby观察 来源:电子发烧友 作者:梁浩斌 2024-06-17 09:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/梁浩斌)今年春节期间,OpenAI的AI文字生成视频模型Sora惊艳全世界,极高的视频生成效果、长达60秒的视频生成长度,让过去Pika Labs推出的Pika 1.0、去年Runway推出的Gen-1、谷歌团队发布的VideoPoet等各种文生视频模型都黯然失色。

然而,Sora在发布近4个月的时间里,依然没有开放普通用户使用,同时也没有更多的视频案例流出,目前只有官方发布的演示视频。

最近,快手旗下的名为“可灵”的文生视频大模型上线,与Sora不同的是,可灵发布即开放申请使用,目前已经有大量用户获得使用名额,社交平台上已经有不少用户上传了可灵生成的视频,甚至在海外AI圈迅速爆火。

对比Sora,可灵的效果如何?

快手在推出可灵时,很明确地表示可灵是“首个效果对标Sora且面向用户开放的文生视频大模型”。既然对标Sora,那么就要看下双方的实际表现如何了。

首先从生成视频的指标上看,Sora宣称能够输出1080p分辨率,最长60秒的视频,从OpenAI展示出的Demo来看,Sora的强大之处更在于物体模型的稳定,不仅是在单镜头运动中物体建模能够保持一致性,即使是多镜头的画面切换中,依然能够保持色彩、画面风格的一致。

可灵官方宣称的指标是,支持长达2分钟的电影级画面输出,支持720p和1080p视频输出,帧率30fps,同时支持多种宽高比。可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容,同时能够符合运动规律。

f2995ac7b0584a00af00995fcbc7dab8~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=E8pc3thbmfHkHatUiux2GjkkaRU%3D

提示词:小男孩在花园里骑自行车经历秋冬春夏四季变换

在一些演示视频中,也可以看到可灵的物理建模比较稳定,在一分多钟的长镜头画面中,整体画面一致性表现较为理想。

7a9605de5a65453b8af6284b93f6204e~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=MjQ1FFHJra1ZBGSZcPOngB70Ejg%3D

提示词:微距镜头,火山在一个咖啡杯中喷发

文生视频的一个重要应用就是生成现实中不存在的画面,能够充分将人的想象力转化成视频。Sora发布之初在咖啡杯中的海盗船令人印象深刻,可灵官方演示视频中也有类似的案例。

af5f4fcea2374eecba97160d26e6ecd3~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=PfB671WcgzCU92GiwDBZHY%2BrM3E%3D

提示词:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡

在“吃汉堡”的场景中,Sora此前的演示视频已经较为真实地展示了汉堡的咬痕,但可灵添加了更多细节,不仅是汉堡在被咬后的缺口,同时小男孩咬下汉堡后嘴边残留的碎屑也展现出来了,更加符合物理规律。

不过,目前可灵内测的版本只支持5秒、720p分辨率的视频,有博主测试同样提示词,可灵有时候理解相对Sora会较弱。

比如提示词:动画场景特写了一个跪在融化的红烛旁的毛茸茸的小怪物。艺术风格是3D和现实主义的,重点是照明和纹理。这幅画的基调是惊奇和好奇,因为怪物睁大眼睛张着嘴凝视着火焰。它的姿势和表情传达出一种天真和顽皮的感觉,就好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。

这串细节描写丰富的提示词,Sora官网展示的效果是这样的:

399ac79eaeae48f79a0ef5aa7cd4f8dc~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=4W2ULy%2BlAa0Hi0CeUAA0uaBKq%2BY%3D

而可灵是这样的:

a5444151ab6b48e0af8bc57d193c5451~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=n3jPrQTCNDxnuhwgUMNZBlv%2FxlY%3D

当然,由于模型的不同,可能可灵的提示词优化方向会与Sora有所区别。

但从效果来看,可灵与Sora已经十分接近,更重要的是,可灵已经开放公众测试,Sora目前依然处于PPT阶段。

文生视频模型即将迎来大爆发?

尽管Sora表现依然有所领先,但此前Sora火爆出圈的短片《气球人》被爆经过大量后期调整,三个人的团队花了1.5至2周的时间才做出来,团队自曝Sora生成的视频素材最终用到影片里的只有1/300。

所以,Sora一直未开放使用或许也有实际效果不如预期的考虑。因此,可灵的强大之处在于,实打实地开放给创作者使用,目前在快手旗下的快影APP中就能申请使用资格,截至6月14日,已经有8万人在排队审核中。

同时,快手上已经出现大量采用可灵制作的短片,通过多个5秒的短镜头拼接而成,实际效果可见即可得。

而近期除了可灵之外,Luma AI也对外开放了其文生视频模型Dream Machine,更是宣称可以输出120秒120帧的高质量视频。

目前文生视频模型,包括可灵、Sora等都采用了Diffusion Transformer作为整体架构,有观点认为,Sora并不是技术性的突破,而是产品性的突破。即文生视频实际上也是大模型应用的一个方向,而Sora就是其中一个突破性产品。

可灵领衔的文生视频模型大规模应用,更是代表着这类产品的新高度。从产品上看,可以预见,未来半年里,国内外可能将会陆续涌现更多高质量的文生视频大模型产品,并大大加快迭代的进度。

文生视频大模型的爆发,将会有很大可能,彻底改变未来短视频创作的生态。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Sora
    +关注

    关注

    0

    文章

    86

    浏览量

    751
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云天励飞如何助力中国AI芯片突围

    过去两年,人工智能以惊人的速度席卷全球。从ChatGPT的横空出世,到Sora等多模态模型的突破,再到中国DeepSeek R1的开源,AI技术正以前所未有的节奏重塑产业格局。算力消耗不断攀升,模型迭代从“年”缩短到“周”,全球AI正进入一场以算力为核心的新竞赛。
    的头像 发表于 10-27 10:01 382次阅读

    OpenAI Sora 2模型上线微软Azure AI Foundry国际版

    我们非常激动地宣布,OpenAI 的新一代多模态视频生成模型 Sora 2 现已在 Azure AI Foundry(国际版)上线,进入公共预览阶段
    的头像 发表于 10-22 09:44 447次阅读
    OpenAI <b class='flag-5'>Sora</b> 2模型上线微软Azure AI Foundry国际版

    看点:谷歌Veo 3.1迎来重大更新硬刚Sora 2 12英寸硅片国产龙头西安奕材今日申购

    给大家带来一些业界资讯: 谷歌Veo 3.1迎来重大更新硬刚Sora 2 据外媒报道,在10月16日,谷歌发布了AI视频生成模型Veo 3.1,升级音频集成与叙事控制能力;以及更逼真的质感还原。在
    的头像 发表于 10-16 16:00 825次阅读

    别只盯着Sora中国AI视频的实时交互已悄悄领先

    告别抽卡,国产图生视频模型已经卷到next level
    的头像 发表于 10-16 10:54 2550次阅读
    别只盯着<b class='flag-5'>Sora</b>,<b class='flag-5'>中国</b>AI视频的实时交互已悄悄领先

    Sora2五天下载量破百万!超越ChatGPT增长速度,App Store免费榜霸榜第一

    榜单前三占二,奥特曼估计在家脸都笑麻了吧不过,SoraAPP不是要邀请码才能玩,还必须iOS用户吗?所以原来大家都在私底下偷偷玩Sora啊,只有我还在求邀请码TT难
    的头像 发表于 10-13 16:39 1417次阅读
    <b class='flag-5'>Sora</b>2五天下载量破百万!超越ChatGPT增长速度,App Store免费榜霸榜第一

    泰克科技解析AI服务器电源架构的技术演进

    2025年,AI热潮持续升温。大模型的参数规模越发惊人,训练周期从月级压缩至周级,ChatGPT、DeepSeek、Sora、Grok等一众生成式AI应用轮番登场,让“AI服务器”的算力竞技演化为全球科技厂商的焦点战场。
    的头像 发表于 06-07 09:06 2361次阅读
    泰克科技解析AI服务器电源架构的技术演进

    Ironwood开放式顶部BGA插座凸轮驱动杆

    Ironwood开放式顶部BGA插座凸轮驱动杆 Ironwood的BGA芯片寿命通常可通过浴槽曲线来典型地展示。鉴于BGA制造工艺的固有属性,极少数BGA在初期使用阶段就可能失效,而在其正常使用期
    发表于 02-17 09:36

    忆阻器存算一体技术深度解析

    AI领域正在经历一场颠覆性的变革!DeepSeek,一款近期火爆全球的开源AI大模型,正与GPT-4、Sora等模型一起,掀起一场前所未有的算力竞赛。随着AI训练规模的指数级增长,计算资源的短缺已经成为无法忽视的问题——算力不足,功耗爆表,传统芯片难以支撑未来AI需求!
    的头像 发表于 02-13 17:32 1270次阅读
    忆阻器存算一体技术深度解析

    美洽荣登2024中国生成式AI 创新企业系列榜单-智能客服创新企业榜

    创新企业系列榜单” 从ChatGPT的火爆到Sora的发布,大模型正以惊人的速度迭代升级,这股浪潮不仅刷新了技术边界,更颠覆了各行各业的传统认知。 在中国,越来越多的企业正在融合AI优化业务流程、提升决策效率、创新服务模式,积极探索如何融合最新
    的头像 发表于 12-31 15:12 855次阅读
    美洽荣登2024<b class='flag-5'>中国</b>生成式AI 创新企业系列榜单-智能客服创新企业榜

    OpenAI攻克Sora视频创建错误率高难题

    在人工智能与多媒体技术的交叉领域,OpenAI近期宣布了一项重要进展:成功解决了Sora视频创建过程中错误率高的问题。这一突破不仅标志着OpenAI在视频处理技术上取得了显著进步,也为广大用户带来
    的头像 发表于 12-31 10:37 841次阅读

    OpenAI暂不推出Sora视频生成模型API

    OpenAI近日宣布,目前暂无推出其视频生成模型Sora的应用程序接口(API)的计划。Sora模型能够基于文本和图像生成视频,引发了广泛关注。然而,由于访问量远超预期,OpenAI此前不得不紧急
    的头像 发表于 12-20 14:23 970次阅读

    成都汇阳投资关于Sora 正式上线,多模态模型的里程碑

      事 件  12月10日,OpenAl正式上线 Sora,并向包括美国在内的多数国家用户开放,用户可在OpenAI官网上体验Sora。同时,Sora 被包含在ChatGPT Plus
    的头像 发表于 12-16 14:39 1141次阅读

    OpenAI推出AI视频生成模型Sora

    近日,备受期待的OpenAI再次推出了其创新之作——AI视频生成模型Sora。这一新品的发布,无疑为AI技术注入了新的活力。 据悉,Sora与OpenAI旗下的AI工具DALL-E有着异曲同工之妙
    的头像 发表于 12-12 09:40 1062次阅读

    Sora之后,视频生成模型的中国牌局

    大模型的牌局,国内企业正在找到自己的节奏感
    的头像 发表于 12-12 09:23 3178次阅读
    <b class='flag-5'>Sora</b>之后,视频生成模型的<b class='flag-5'>中国</b>牌局

    OpenAI开放Sora视频生成模型

    OpenAI近日宣布,其倾力打造的人工智能视频生成系统Sora已正式向美国及其他市场的ChatGPT Plus订阅用户开放。自去年首次公开预览以来,Sora历经约10个月的精心研发与优化,现已全面
    的头像 发表于 12-10 11:16 1073次阅读