电子发烧友网报道(文/周凯扬)自文本与图片类的AIGC爆火以来,几乎所有互联网公司和应用开发商都在跟进。然而近期随着Sora的爆火,决定开发同类应用的厂商却少之又少,这就不得不谈到硬件成本的问题,毕竟一个能够实现文生视频的应用,服务器成本要远远高于GPT类应用。
从文生视频模型的配置谈硬件成本
对于目前市面上的一些文生视频模型而言,其配置往往决定了体验的好坏。就拿Runway的Gen-2模型来说,其最大的特点在于可以生成4K级别分辨率的视频,且具备影视级别的构图和运镜,支持图片和文本的指令输入。
然后是最近一炮走红的Sora,其将最大时长做到了1分钟,且支持符合部分物理规律的世界模型,以及多镜头的切换等。不过与Gen-2模型一样,其对分辨率也进行了限制,甚至只能生成1080p的视频。
其他文生视频模型的配置则更加捉襟见肘,比如Meta的Emu Video只能生成最长4秒的512x512分辨率视频等等。从以上文生视频模型看来,由于为了确保画面一致性,视频分辨率、视频长度和每秒帧数往往决定了生成单个视频的硬件负载。目前对于硬件要求最高的应该是Runway的Gen-2和OpenAI的Sora。
这也是为何文生视频应用均采用订阅模式,甚至是按量订阅的付费策略,比如生成视频的项目数量、存储空间、导出质量等,文生视频考验的不仅是服务器算力,还有存储成本。毕竟为了方便用户回溯,这些生成的视频依然需要存储在服务器上一段时间。
就以Runway为例,要想完全无限制地生成视频功能,每月订阅费用高达76美元,且这仅仅意味着450s的Gen-2视频生成,如果用户需要生成更多内容,则还需要额外购买。可见为了维持服务器费用,文生视频应用面临的成本压力要远大于GPT类应用。
不只是云端,硬件成本也决定了本地部署的难度
从ChatGPT和Stable Diffusion这两个最火的AIGC应用就可以看出,硬件是开发这类应用的最大门槛之一。基于低成本硬件打造的类ChatGPT应用响应时间慢,生成内容质量差。而Stable Diffusion这类文生图模型,已经可以在消费级硬件上实现不错的效果,甚至可以普及到一些低功耗的端侧设备上。
但对于Sora这类文生视频的模型而言,要想在消费级实现本地部署可谓是难于登天,在完成内容的基本生成工作后,还需要经历风格化、分镜、遮罩、渲染和自定义等一系列流程,可以说不仅考验硬件的AI算力,也对视频渲染能力提出了更高的要求。
据了解,一批开源开发者已经在构建OpenAI Sora的复制版本,且可以在使用消费级英伟达GPU的高配电脑上跑通。不过马斯克也评论道,他也认为这是可行的,但是帧渲染速率会非常低。如果需要花上数小时,才能生成出一个质量较差的4秒视频,对于绝大多数用户来说,必然不是好的体验。
写在最后
要论硬件成本的话,对于应用开发者和用户而言,文生视频目前还是一个较为昂贵的“玩具”。但我们也不能否认其前景,随着算力成本逐渐下降,未来文生视频不仅可以作为内容创作途径,也可以作为辅助工具,替代掉一部分重复性工作,尤其是在广告视频行业。
不过这类应用的出现,也会让我们开始重新审视起GPU在AIGC硬件市场的地位,毕竟多出了图形渲染这一额外的硬件要求,其他的ASIC方案在这方面固然会逊色GPU一筹。再加上英伟达GPU在物理仿真上的优势,或许文生视频会给英伟达带来更多的市场机遇。
-
AI
+关注
关注
89文章
38170浏览量
296871 -
AIGC
+关注
关注
1文章
391浏览量
3153 -
大模型
+关注
关注
2文章
3448浏览量
4974 -
Sora
+关注
关注
0文章
86浏览量
757
发布评论请先 登录
华为数据存储与「DaoCloud 道客」发布AI推理加速联合解决方案
中国制造设备出海拦路虎:电压不匹配的技术解决方案
从“能跑”到“能替代人”,自动驾驶普及的真实拦路虎是什么?
降低无人门店运营成本:大厦无人超市解决方案
艾德克斯IT2705直流电源分析仪助力低功耗设备测试
光伏电站效率低、电费高还影响电网?安科瑞电能质量治理方案为您解忧--安科瑞潘丽
工业质检再升级:复杂网络检测模型破解多场景检测难题
瑞虎7 PLUS和瑞虎7高能版换新上市
光网络全面革新!ADOP 400ZR+技术深度解析:从原理到实战,一文读懂如何省电80%、降本70%
福田汽车800V高压平台技术打造绿色物流运输新体验
智慧路灯的成本是多少
DeepSeek一体机:加速AI训推超融合,推动行业智能化落地
富唯智能复合机器人:解锁工业生产新效能

文生视频,硬件成本是最大拦路虎
评论