0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

文生视频Pika 1.0爆火!一句话生成视频,普通人也能当“导演”

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-12-01 01:08 次阅读

电子发烧友网报道(文/李弯弯)11月29日,美国AI初创公司Pika labs发布了全新的文生视频产品Pika 1.0,这款产品能够生成和编辑3D动画、动漫、卡通和电影。用Pika 1.0制作视频几乎不需要任何门槛,用户只需要输入一句话,就可以生成想要的各种风格的视频,并通过简单的描述,更改视频中的形象和风格。

一句话生成视频,颠覆传统视频制作

Pika成立于今年4月,创始人郭文景和联合创始人兼CTO Chenlin Meng,都是斯坦福大学AI Lab博士生。一位专注于NLP(自然语言处理)和图形学,另一位主攻计算机视觉方向,都有生成式AI的学术经历。今年7月,Pika在Discord推出服务器,截至目前用户已超50万,每周能生成数百万个视频。

11月29日,Pika Labs正式推出了最新一代视频生成模型Pika 1.0。Pika 1.0 不仅对视频生成质量进行了提升,还支持 3D 动画、动漫或电影等多种风格视频。此外,用户还能够通过 Pika 实现画布延展、局部修改、视频时长拓展等编辑需求。

具体来看,Pika 1.0的效果有多惊艳。视频生成方面,可以通过文字生成视频,也可以图片生成视频。比如,只需输入提示词“马斯克穿着太空服,3D动画”,一个动画版本、穿着太空服准备乘坐火箭上太空的马斯克即可生成,外形、动作、背景等元素均十分逼真,可以媲美花大成本制作的3D动画影像。





这是文字生成视频,另外也可以图片配合提示词生成视频,图片为第一帧,再用文字控制动画变化效果和镜头。比如,可以轻松让名画《最后的晚餐》变得生动起来。



除了文字生成视频,图片生成视频,还可以通过原有视频生成更高质量的视频。其展示了一个骑马的黑白原视频,通过Pika 1.0生成了物种不同风格的动画,几乎涵盖现有电影和动画大部分风格,看上去质量效果非常好。



除了视频生成,Pika 1.0还能够进行视频编辑,用户只需要选定编辑区域,就能根据文本提示词修改特定区域。比如,不喜欢视频中的衣服,可以轻松更换衣服的款式和颜色;只需要用鼠标框一下,输入“一副酷酷的太阳镜”,马上就能给视频中的狒狒带上墨镜。




此外,Pika 1.0还能够修改轻松修改视频尺寸。虽然这个技术在AI绘画领域早就实现了,但是目前Pika第一个将其用在视频领域。



总的来说,Pika 1.0的功能包括:文本生成视频、图像生成视频功能,只需要输入简单的文本描述,或上传图像配合文字,就可以创建高质量的视频;视频风格转换;对视频内容进行编辑,更改或者增加图片里面的元素,还能够更改视频的宽高比尺寸等。

据称,当前Pika Labs团队仅有4位全职成员,但兼具学术和创意两个领域的顶尖人才。Demi Guo 和 Chenlin Meng 同为 Stanford AILab 的博士研究人员,拥有顶尖的学术和科研经历;Karli Chen 作为团队第三位创始人及创始工程师拥有CMU的ML&CV硕士学位,Karlin 本科期间就在机器视觉公司 SenseTime 担任工程师;Matan Cohen-Grumi则在创意领域经验丰富。

在正式推出Pika 1.0的同一天,Pika也公开透露,目前已完成A轮融资,筹资总额达到5500万美元。投资人包括OpenAI创始成员安德烈·卡帕西(Andrej Karpath)、Github前CEO纳特·弗里德曼(Nat Friedman)、Quora创始人亚当·迪安杰罗(Adam D'Angelo)等。

目前Pika 1.0已经开启申请试用,该公司表示,正在努力修改算法进一步改进模型,并开发用于过滤受版权保护材料的模型。另外,目前Pika的产品还是免费的,但最终可能会推出分层订阅模式,付费用户能享受更多功能。同时Pika也在开启招聘计划,包括技术、产品、运营等,预计明年会将团队扩充到20人。

AI视频生成技术的前景及挑战

近段时间,除了Pika 1.0,已经有多家企业发布新的视频生成工具。11月16日,社交媒体巨头Meta发布工具Emu Video,能够基于文本和图像输入生成视频剪辑。几乎同时,字节跳动发布了PixelDance模型,通过描述(纯文本)+首帧指导(图片)+尾帧指导(图片),即可生成包含复杂场景和动作的视频。

11月21日,Runway动态笔刷Motion Brush面世,该工具发布的时候引起不小的关注,其特别之处在于,只需在任意图片上抹一笔,就能让其变成一段动态视频。作为最早探索视频生成领域的领头羊之一,过去一年,Runway先后发布了 Gen1、Gen2,此次推出的Motion Brush在可靠性上更是又向前迈进一大步。



11月24日,专注于开发人工智能产品的初创公司Stable AI发布了其最新的AI模型Stable Video Diffusion(稳定视频扩散模型),这款模型能够通过现有图片生成视频,是基于之前发布的Stable Diffusion文本转图片模型的延伸。

除此之外,Adobe也在文生视频领域有新动作。日前,该公司宣布已收购AI视频生成创业公司Rephrase.ai,后者主要通过AI技术将文本转换为虚拟形象视频。Adobe高级副总裁兼总经理Ashley Still称,Rephrase.ai团队在生成式AI音视频技术、文本到视频生成工具方面的专业知识将扩展Adobe的生成式视频功能。

从Adobe收购Rephrase.ai,及国内外企业纷纷布局AI视频生成领域,可以看到,AI生成内容大潮已经逐渐从文本和图片,进一步转向视频生成。

当前,短视频、短剧市场方兴未艾,AI视频技术的不断成熟和应用,有望让视频创作更简单,成本更低。正如在Pika 1.0发布之际,OpenAI创始成员安德烈·卡帕西(Andrej Karpathy)在X平台发文感慨“每个人都能成为多模式梦想的导演,就像《盗梦空间》中的建筑师一样。”

全世界最大的AI开源社区Hugging Face的CEO克莱门特(Clement)表示:“2024年,某个主流媒体领域将会充斥AI生成的内容。”

AI视频生成有着可想象的美好前景,同时当前来看,它也存在一些挑战。它与此前的AI生成图片有所不同,Pika Labs创始人Demi接受媒体采访时表示,视频有很多和图片不一样的问题,比如要确保视频的流畅性、确保动作,视频比图像更大,需要更大的GPU内存,视频生成需要考虑逻辑问题,还要考虑如何生成,是一帧一帧生成,还是一起生成,现在很多模型是一起生成,生成的视频就很短。如果要一帧一帧生成,要怎么做,其实视频生成有很多图片生成不会面临的新的技术问题。

该公司的联合创世人Chenlin谈到,虽然视频的每一帧都是一张图片,但比图片困难得多。每一帧的生成质量要高,相邻帧之间还要有关联性。当视频很长时,确保每一帧都协调一致是个相当复杂的问题。在训练时,处理视频数据时要处理多张图片,模型需要适应这种情况。比如,如何将100帧图片传输到GPU上是一个挑战。而在推理时,由于涉及到生成大量帧,推理速度相对于单张图片会更慢,计算成本也会增加。

从目前的情况来看,虽然现在的AI视频生成已经展现出很惊人的效果,不过仍然面临新的挑战,还有需要突破的地方,比如视频的时长,清晰度等等,相关企业对此还需要持续探索。

总结

过去两年,生成式AI大潮席卷全球,图片生成率先火出圈并获得大量使用,不少AI创业企业也因此实现盈利。如今,AI视频生成逐渐成为创业企业及资本追逐的新热点,目前已经有众多企业推出相关产品,随着Pika 1.0的发布,AI视频生成技术也走上了一个新高度。可以想象,随着技术的不断突破,AI视频生成技术将短视频、短剧等行业带来新的可能。








声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏

    评论

    相关推荐

    OpenAI又打出王炸!一句话生成60秒视频,马斯克:人类认输吧

    游戏中原意为称赞对方打得不错,但目前主流的含义是代表认输退出)。   文字生成视频的AI模型其实之前也有不少,比如去年11月美国AI初创公司Pika Labs发布的Pika
    的头像 发表于 02-19 09:02 3319次阅读
    OpenAI又打出王炸!<b class='flag-5'>一句话</b><b class='flag-5'>生成</b>60秒<b class='flag-5'>视频</b>,马斯克:人类认输吧

    OpenAI发布文生视频大模型Sora、英伟达市值超谷歌

    OpenAI加入文生视频大模型的战局,AI大模型进入视频生成的阶段,这将进一步刺激AI芯片的需求。 OpenAI发布文生视频大模型Sora,
    的头像 发表于 03-28 18:13 528次阅读

    请问AD2428 TX crossbar是个什么功能?

    AD2428 TRM中,描述升采样功能的最后一句话时,提到了个TX crossbar功能,全文搜索crossbar只有这处,这是个什么功能?
    发表于 03-07 07:00

    文生视频,硬件成本是最大拦路虎

    的问题,毕竟一个能够实现文生视频的应用,服务器成本要远远高于GPT类应用。   从文生视频模型的配置谈硬件成本   对于目前市面上的一些文生
    的头像 发表于 02-26 09:13 3097次阅读

    除了刷屏的Sora,国内外还有哪些AI视频生成工具

      电子发烧友网报道(文/李弯弯)近日,OpenAI发布的文生视频模型Sora全网刷屏。相比之前的文生视频模型,Sora无论是视频时长,还是
    的头像 发表于 02-26 08:42 3172次阅读
    除了刷屏的Sora,国内外还有哪些AI<b class='flag-5'>视频生成</b>工具

    OpenAI文生视频模型Sora要点分析

    近日,美国人工智能公司OpenAI发布了首个视频生成模型Sora。不同于此前许多AI大模型文生图或视频时,会出现人物形象前后不一致等问题
    的头像 发表于 02-22 16:37 536次阅读
    OpenAI<b class='flag-5'>文生</b><b class='flag-5'>视频</b>模型Sora要点分析

    OpenAI新推文生视频大模型Sora引发热议,首批受益者涌现

    在科技浪潮中,OpenAI再次引领潮流。继2023年的文生文大语言模型之后,2024年春节期间,OpenAI推出的文生视频大模型Sora迅速成为全球科技界的焦点。这款模型能够根据文本内容生成
    的头像 发表于 02-22 14:15 354次阅读

    openai发布首个视频生成模型sora

    美国当地时间2024年2月15日 ,OpenAI正式发布文生视频模型Sora ,并发布了48个文生视频案例和技术报告 ,正式入局视频生成领域
    的头像 发表于 02-21 16:45 689次阅读

    Sora助推OpenAI估值飙升275%

    近日,人工智能领域的领军企业OpenAI发布了其首个文生视频模型——Sora。这款模型具备令人惊叹的能力:用户只需通过一句话,便能生成长达1分钟的高清
    的头像 发表于 02-20 14:12 196次阅读

    OpenAI发布文生视频模型Sora,引领AI视频生成新纪元

    在人工智能(AI)领域掀起新一轮革命浪潮的,正是OpenAI最新推出的文生视频大模型——Sora。这款被业界广泛赞誉的模型,以其“逼真”和“富有想象力”的视频生成能力,彻底颠覆了传统视频生成
    的头像 发表于 02-19 11:03 444次阅读

    OpenAI推出全新文生视频模型Sora

    近日,全球领先的人工智能研究公司OpenAI宣布推出其最新的文生视频大模型“Sora”。该模型具有突破性的功能,能够根据用户提供的文本指令或静态图像,自动生成长达1分钟的高清视频。这些
    的头像 发表于 02-19 10:56 439次阅读

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相 2月16日凌晨OpenAI的首个文生视频模型Sora正式亮相。Sora只需输入文字,便可
    的头像 发表于 02-18 17:41 595次阅读

    串口流控的意义是什么?

    从来没用过,不知道是怎么用的 现在有可能要用,有大神能用一句话讲的明白的么
    发表于 10-20 07:26

    #硬声创作季 电子知识 一句话讲清零基础

    元器件电子知识
    Mr_haohao
    发布于 :2023年07月25日 22:48:31

    钉钉AI具备文生文、文生图、应用生成等AI能力

    钉钉AI具备文生文、文生图、应用生成等AI能力 此前在4月18日的钉钉2023春钉峰会上宣布全面接入通义千问大模型,并实际演示了AI部分能力。此后,该公司开始了内部测试,此次是该公司的“/”能力首次
    的头像 发表于 05-31 18:50 1340次阅读