0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Sora到底牛在哪 | AI爆发的大趋势下,普通人真正该学的是什么

王岚 来源:jf_23355247 作者:jf_23355247 2024-03-06 22:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Sora炸裂了的地方,在于它能理解自然语言,知道那个画面该是怎么样的,它学习很多视频内容(大力出奇迹,需要很多算力),而且一上来就是能制作60s的视频,刚好是短视频的需求,之前的AI视频生成的时间都很短(几秒钟).

就说Sora有多火吧,生成的视频上线一个,疯传一个。

明显能看出来Sora生成的视频中的各项细节都让人惊叹,一如去年的ChatGPT,Sora被认为是AGI(通用人工智能)的又一个里程碑时刻。

一.sora的出现可以如何看待:

对于许多行业来说,都应该关注Open AI和sora这些人工智能相关的产品。

尤其是对设计领域来说,比如以前做logo、做海报、宣传册、做操作视频剪辑、拍摄等等相关的行业。

其一是思考,面对这些新技术、新工具,对自己有哪些挑战,应对策略是什么。

其二是结合,基于自己当前的业务,哪些可以利用这些技术进行结合,从而提升自己的效率和业务场景。

比如美图秀秀、稿定设计、剪映等产品,就基于AI立马推出了相关的产品。

(PS:目前 openai 官方还未开放 sora 灰度,不过根据文生图模型 DALL·E 案例,一定是先给 ChatGPT Plus 付费用户使用,需要注册或者升级 GPT Plus 可以看这个教程:升级 ChatGPT Plus 的教程,一分钟完成升级)

二. 以终为始地看,AI爆发的大趋势下,普通人真正该学的是什么?

我觉得有三点:讲故事的能力、结构化思考力和内容专业力。

1. 讲故事的能力

以文生视频为例,先不说Sora,很多人连Pika、Runway都用不利索。

用文字描述一件事、一个观点、一个诉求并不难,但描述一段画面、一个场景、一则完整故事,对绝大多数人是极高的门槛。

Sora不会让影视行业失业,正相反,如果视频生成的AI技术持续普及,会让真正会写故事的人发挥才能,而不是受限于影视行业的潜规则而灰心放弃。

2. 结构化思考力

很多写Sora的文章,都在讲它在模型算法、算力涌现、物理模拟上的创新。对我而言,会更惊讶它在训练视频数据时,以一种结构化提示词方法,解决了视频标注问题:

“We first train a highly descriptive captioner model and then use it to produce text captions for all videos in our training set”

本质上看,无论是B端训练数据,还是C端和大模型对话,都用到了结构化表达能力。包括那些所谓“Sora培训”,其实教你的也是怎么写好提示词。举个例子,对这样的场景:

该怎么描述呢?一个在沉思的老爷爷?一个戴眼镜的老爷爷?一个在咖啡厅发呆的老爷爷?可能大部分人想到这儿就结束了。但更加结构化的描述可以是:

主体人物::一位 60 多岁留着胡须的白发老人

镜头景别:脸部特写

背景环境:巴黎的一家咖啡馆

人物状态:注视着窗外行走的人们,一动不动陷入沉思,后又抿嘴微微一笑

人物细节:穿着一件羊毛大衣和一件纽扣衬衫、头戴棕色贝雷帽,戴着眼镜,像是个教授

环境细节:金色的灯光和背景中的巴黎街道和城市

镜头技术:景深、35 毫米电影胶片,有电影感

具备写出上述提示词的能力,才能真正发挥多模态技术的价值。这背后蕴含着的,就是结构化总结和思考能力。

有句话很形象,写提示词就像客户讲brief,能把需求说清楚,就离正确答案不远了。

3. 内容专业力

这点又说回到创作者本身,我比较喜欢杨远骋老师(「躺岛」和「新世相」联合创始人)的一个观点:

最大的影响会是出现新的创作者,会出现完全不在人们视野里的新的内容偶像,他们有非常好的品位、思维方式和世界观,但受限于表达技术,在过去却连基本的视频制作能力都不具备。

Koji,公众号:十字路口CrossingSora 喧嚣过后,理性浮现 | 我问出了这 5 位顶级创作者的真实想法

是的,除了上文提到的讲故事能力。如果你具备对“好内容”的理解力,懂得怎样更合理地设计脚本、做分镜、上特效、画故事板、运镜、调度、选角、布景、调光、配音、后期等等,AI就是你发挥想象力最好的帮手。能用好 AI 的人,一定能做出更好作品、获得更多收入。

因此我坚定地认为,这波AI趋势,对高潜力的作家、画手、设计师、编剧等创作者,是绝对的利好。如果你也想从中获益,先把“创作一部好内容”作为目标学起来吧。

总的来讲,我认为围着Sora去追新闻没啥必要。能跳出对Sora本身铺天盖地的宣传,去思考这背后该真正掌握的技能是什么。用结构化思维去训练讲故事的能力,成为一名优秀创作者,才是值得为此付出时间的。

三、sora原理常见问题及解答:

Q:训练数据的一个 clip 中如果有场景/镜头的切换,那 casual 3D CNN 还是会和过往的帧都有关系吗?

A:训练数据中大概率是有:一个 clip 有镜头/场景的切换。如果有切换,那么使用 casual 3D CNN 可能会带来问题:在切换前后的内容是不同的,不仅会增加模型训练难度,也会带来瑕疵。这个可能就直接训练了,通过相应数据的训练就能解决。


Q:训练数据的来源?

A:大家猜测有 1)youtube 的视频。2)Shutterstock,之前有公告:Shutterstock 扩大与 OpenAI 的合作伙伴关系,签署新的六年协议以提供高质量的训练数据:渲染引擎的数据,这个网络上大家贴出了一些间接证据。渲染引擎的数据能够针对性地模拟出很多符合 3D 一致性、物理一致性的数据,对于模型的训练应该有很好的帮助。


Q:输出变长的长度、分辨率和长宽比是如何做到的?

A:1. diffusion 过程中,输入的 noise tokens 就添加 factorized positional embedding。比如最直接的实现方式,每个 token 对应有三个数字(t, h, w)分别表示时间、长和宽,然后添加相应的 position embedding 去区分。

训练的时候也采用了变长的长度、分辨率和长宽比。这些 examples 模型在训练的时候见过。

这样,可以做到技术报告中提到的:At inference time, we can control the size of generated videos by arranging randomly-initialized patches in an appropriately-sized grid。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38171

    浏览量

    296922
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10077
  • Sora
    +关注

    关注

    0

    文章

    86

    浏览量

    757
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    OpenAI Sora 2模型上线微软Azure AI Foundry国际版

    我们非常激动地宣布,OpenAI 的新一代多模态视频生成模型 Sora 2 现已在 Azure AI Foundry(国际版)上线,进入公共预览阶段。
    的头像 发表于 10-22 09:44 454次阅读
    OpenAI <b class='flag-5'>Sora</b> 2模型上线微软Azure <b class='flag-5'>AI</b> Foundry国际版

    2025 AI玩具元年,技术、政策、资本共振的产业爆发

    电子发烧友网综合报道 今年以来,AI玩具市场进入到了技术、政策、资本三线共振的爆发期,2025年也被成为AI玩具的元年。近期,由京东联合深圳市玩具行业协会发布《2025 AI玩具消费
    的头像 发表于 08-31 07:14 4357次阅读

    2025人工智能十大趋势

    在2025世界人工智能大会·腾讯论坛上,腾讯研究院联合腾讯优图实验室、腾讯云智能、腾讯科技联合发布了《共生伙伴:2025人工智能十大趋势》报告。基于腾讯研究院多位研究员对全球技术、产业趋势的长期观察
    的头像 发表于 08-05 11:42 4997次阅读
    2025人工智能十<b class='flag-5'>大趋势</b>

    Gartner发布云技术发展的六大趋势

    Gartner发布未来四年云技术发展的六大趋势,包括对云技术不满、人工智能/机器学习(AI/ML)、多云和跨云、可持续性、数字主权以及行业解决方案。Gartner顾问总监JoeRogus表示:“这些
    的头像 发表于 05-19 11:40 811次阅读
    Gartner发布云技术发展的六<b class='flag-5'>大趋势</b>

    《零基础开发AI Agent——手把手教你用扣子做智能体》

    《零基础开发AI Agent——手把手教你用扣子做智能体》是一本为普通人量身打造的AI开发指南。它不仅深入浅出地讲解了Agent的概念和发展,还通过详细的工具介绍和实战案例,帮助读者快速掌握
    发表于 03-18 12:03

    浅谈AI应用的三大趋势

    AI跑在边缘侧和端侧基本上已经是当下AI应用的主旋律。这一趋势从去年在上海举办的两大展会WAIC(世界人工智能大会)和Electronica(慕尼黑电子展,称“慕展”)上再次得到了
    的头像 发表于 03-06 11:46 1244次阅读

    DeepSeek对2025年智能制造领域十大趋势的预测

    和行业动态,deepseek预测的2025年智能制造领域十大趋势,涵盖技术创新、生产模式变革及产业生态重塑。 生成式AI驱动全流程优化 趋势:生成式AI(如工业大模型)将深度融入产品设
    的头像 发表于 02-17 10:24 1594次阅读

    维智科技对DeepSeek的十问十答

    DeepSeek这一国产大模型的技术创新给AI生态带来了深刻的影响,那么我们普通人可以在这个浪潮中寻得哪些新的机会?
    的头像 发表于 02-13 09:41 718次阅读

    朋友圈被DeepSeek刷屏了?普通人如何也能吃上AI红利?

    开了家24小时平价米其林餐厅。今天咱们就说说这些AI公司到底在卷什么,以及咱们普通人该怎么搭上这趟车。一、拆解DeepSeek三大技术亮点开源策略与生态建设Dee
    的头像 发表于 02-11 10:31 1w次阅读
    朋友圈被DeepSeek刷屏了?<b class='flag-5'>普通人</b>如何也能吃上<b class='flag-5'>AI</b>红利?

    大趋势企业如何实现智能制造 | 珠海盈致

    、成本控制等方面的显著提升。那么,在大趋势,企业如何实现智能制造呢? 一、明确智能制造转型战略 企业首先要基于自身现状和市场趋势,制定明确的智能制造转型战略。这包括短期和长期目标,以及实现这些目标的路径和关键
    的头像 发表于 01-21 13:57 617次阅读

    华为发布2025数据中心能源十大趋势

    今日,华为举办2025数据中心能源十大趋势发布会,华为数据中心能源领域总裁尧权全面解读数据中心能源十大趋势,为AI时代数据中心产业发展注入新动力,洞见变革,引领产业跨越式发展。
    的头像 发表于 01-14 10:24 882次阅读

    华为发布2025充电网络产业十大趋势

    近日,华为以“让有路的地方就有高质量充电”为主题,举办2025充电网络产业十大趋势发布会。华为智能充电网络领域总裁王志武从产业发展走向与技术发展路线,全面解读2025年充电网络产业十大趋势
    的头像 发表于 01-10 09:33 1207次阅读

    华为发布2025智能光伏十大趋势

    华为数字能源以“融合创新,智构未来,加速光伏成为主力能源”为主题,举办2025智能光伏十大趋势发布会。华为数字能源智能光伏产品线总裁周涛发布了智能光伏十大趋势和重磅白皮书,为光储产业的高质量发展提供前瞻性支持。
    的头像 发表于 01-06 17:12 1306次阅读

    2025年全球半导体八大趋势,万年芯蓄势待发

    近日,国际数据公司(IDC)发布了2025年全球半导体市场的八大趋势预测,显示出对半导体市场回暖的信心,为业界提供了宝贵的市场洞察。在全球范围内,特别是在人工智能(AI)和高性能运算(HPC)需求
    的头像 发表于 12-17 16:53 2843次阅读
    2025年全球半导体八<b class='flag-5'>大趋势</b>,万年芯蓄势待发

    OpenAI推出AI视频生成模型Sora

    近日,备受期待的OpenAI再次推出了其创新之作——AI视频生成模型Sora。这一新品的发布,无疑为AI技术注入了新的活力。 据悉,Sora与OpenAI旗下的
    的头像 发表于 12-12 09:40 1068次阅读