0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TikTok引入前谷歌VideoPoet负责人蒋路,发力AI视频生成

甲子光年 来源:甲子发现 2024-02-22 13:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

独家获悉,谷歌高级科学家、卡内基梅隆大学(CMU)计算机学院兼职教授蒋路,已经加入TikTok。

蒋路是谷歌 VideoPoet 项目负责人,VideoPoet 是谷歌在 2023 年 12 月推出的视频生成大模型,类似 OpenAI 刚刚发布的 Sora。

近期,昆仑万维创始人周亚辉在朋友圈表示,有个论文的作者加入字节北美做Tech Leader,正是指《VideoPoet: A large language model for zero-shot video generation》论文的作者蒋路。

资料显示,蒋路先后在西安交通大学、布鲁塞尔自由大学、卡内基梅隆大学学习计算机,并先后进入微软亚洲研究院、谷歌研究院、雅虎研究院实习。

2017 年,蒋路毕业后加入谷歌。他是谷歌云 AI 的创始成员,也是李佳博士和李飞飞博士首次聘请的研究员。此后,蒋路进入谷歌研究院工作。

蒋路的研究曾被应用到谷歌多个产品,如 YouTube、云服务、云 AutoML、广告、Waymo 和翻译服务,影响了全球数十亿用户的日常生活。

蒋路的工作在自然语言处理(ACL)和计算机视觉(CVPR)的顶级会议上被提名为最佳论文。他是研究社区的活跃成员,担任美国国家种子基金(NSF SBIR)的 AI 评审专家,并定期担任 CVPR、ICCV、NeurlPS、ACM Multimedia 和 AAAI 等著名会议的领域主席。

蒋路的研究兴趣主要在多媒体交叉领域,他专注于生成式 AI 和视频创作。2019 年起,他就开始尝试将 Transformer 用在图像、视频生成研究上。

与 Sora 采用的 Diffusion + Transformer 架构不同,蒋路负责的 VideoPoet 视频生成模型采用了单 Transformer 架构,可以将任何自回归语言模型或大型语言模型转换为高质量的视频生成器,支持生成方形或纵向视频,以针对短格式内容定制生成视频,并支持视频输入生成音频

VideoPoet 采用了名为 Tokenizer 的数据处理技术,可以将视频和音频片段编码为离散标记序列(discrete tokens),这些标记也可以被转换回原始表示。其中,视频和图像数据使用名为 MAGVIT V2 的技术,音频数据使用 SoundStream 的技术。

VideoPoet 通过使用多个 Tokenizer 训练一个自回归语言模型,以学习跨视频、图像、音频和文本模态。一旦模型根据某些上下文生成了标记,这些标记就可以通过分词器解码器转换回可查看的表示。

fe1ad37c-d143-11ee-a297-92fbcf53809c.png

3 周前,蒋路本人在职场社交平台宣布了自己在谷歌的 Last Day,并特别表示对在谷歌所做的视频生成项目(VideoPoet,MAGVIT,WALT等)感到自豪。

蒋路表示自己将继续留在湾区,开始视频生成领域的新旅程。现在来看,新的旅程就是 TikTok。

值得一提的是,字节跳动已经在大模型领域全面布局,模型层推出了自研的「云雀大模型」以及类 ChatGPT 对话机器人产品豆包。2023 年底,字节跳动成立新的 AI 应用部门 Flow,并在海外推出了 Coze 等多款产品。抖音集团 CEO 张楠也于近期卸任,专注于 AI 工具剪映的发展。

字节跳动近期辟谣了推出中文版 Sora,并表示:“还无法完善产品落地,距离国外模型有很大差距。”但另一方面,字节跳动正在大力招揽人才。

大模型战场,字节跳动将会如何搅局?




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    31442

    浏览量

    223654
  • 计算机视觉
    +关注

    关注

    9

    文章

    1715

    浏览量

    47722
  • OpenAI
    +关注

    关注

    9

    文章

    1249

    浏览量

    10280
  • TikTok
    +关注

    关注

    2

    文章

    227

    浏览量

    8314

原文标题:独家:TikTok引入前谷歌VideoPoet负责人蒋路,发力AI视频生成|甲子光年

文章出处:【微信号:jazzyear,微信公众号:甲子光年】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌AI霸主归来!多线反击OpenAI,开启安卓Gemini时代

    Pro、扩散语言模型Gemini Diffusion、视频生成模型Veo 3+ Flow应用、图像生成模型Imagen 4等。在硬件端,分别与三星、Xreal发布了Android XR头显、AR智能眼镜
    的头像 发表于 05-22 09:01 6800次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>AI</b>霸主归来!多线反击OpenAI,开启安卓Gemini时代

    OpenClaw引爆AI!长江存储eSSD三箭齐发,有何杀手锏?

    SIA数据显示,从2024年到2029年,eSSD需求的复合增长率达到34.9%。长江存储固态硬盘事业部负责人谭弘就AI时代的存瓶颈和长江存储企业级解决方案进行精彩的演讲。
    的头像 发表于 03-31 09:36 1.5w次阅读
    OpenClaw引爆<b class='flag-5'>AI</b>存<b class='flag-5'>力</b>!长江存储eSSD三箭齐发,有何杀手锏?

    昆仑万维天工AI大模型SkyReels V4登上Artificial Analysis榜单全球第一

    、Google Veo 3.1、Vidu Q3、OpenAI Sora 2等全球主流模型,成为全球AI视频生成能力最强的大模型,标志中国AI视频生成技术实现世界级引领。
    的头像 发表于 03-26 10:10 946次阅读

    NVIDIA和ComfyUI携手简化本地AI视频生成工作流

    借助 ComfyUI 的应用视图、NVIDIA RTX Video 超分辨率和全新的 NVFP4 模型,AI 驱动的视频生成更加易用。
    的头像 发表于 03-14 16:37 2499次阅读
    NVIDIA和ComfyUI携手简化本地<b class='flag-5'>AI</b><b class='flag-5'>视频生成</b>工作流

    边缘AI临界点:深度解析176TOPS香橙派AI Station的产业价值

    检索。 这一组合带来了高达176TOPS的整型AI(INT8)。在AI硬件行业中,算决定了应用的天花板: 算区间 典型应用场景 设备
    发表于 03-10 14:19

    放弃 14 亿天价合同!前苹果 AI 负责人庞若鸣弃 Meta 转投 OpenAI

    电子发烧友网综合报道 2 月 26 日,一则震撼硅谷的消息在 AI 圈迅速传开:据多家权威媒体报道,前苹果 AI 基础模型团队负责人、上海交大校友庞若鸣(Ruoming Pang)在加盟 Meta
    的头像 发表于 02-27 09:35 2724次阅读

    三星电子相关业务负责人一行到访谷东智能参观交流

    12月23日,三星电子相关业务负责人一行到访谷东智能,围绕增强现实(AR)近眼显示核心光学技术及整机解决方案展开深入交流。来访团队包括三星电子CSS 部门长Richard Hwang、LEDoS中国负责人 Hang Wang等。
    的头像 发表于 12-29 15:44 506次阅读

    看点:谷歌Veo 3.1迎来重大更新硬刚Sora 2 12英寸硅片国产龙头西安奕材今日申购

    给大家带来一些业界资讯: 谷歌Veo 3.1迎来重大更新硬刚Sora 2 据外媒报道,在10月16日,谷歌发布了AI视频生成模型Veo 3.1,升级音频集成与叙事控制能力;以及更逼真的
    的头像 发表于 10-16 16:00 1164次阅读

    全球首个动漫专属AI视频生成平台Animon,国内版&quot;萌动AI&quot;正式发布

    Animon国内版——"萌动AI"首秀:AI动漫创作进入全民时代 北京2025年9月25日 /美通社/ -- CreateAI(OTC:TSPH)今日宣布,其打造的全球首个专注于动漫的AI视频
    的头像 发表于 09-25 12:33 1338次阅读

    FF任命李隽担任全球供应链负责人

    “公司”)今日宣布, 任命李隽为FF与FX全球供应链负责人。李隽将对供应链业务全面负责,并与各区域和各职能团队紧密合作,强化供应商合作关系、提升运营韧性、提升价值链效率。此次任命也体现了公司持续打造世界级供应链组织、支持创新与增长的长期承诺。
    的头像 发表于 09-03 14:47 1192次阅读

    RK3576助力智慧安防:8高清采集与AI识别

    全屏/分屏切换,4G、Wi-Fi、双千兆以太网实现实时推流。3. 米尔RK3576核心板平台优势强大的算:6TOPS NPU高性能:8视频+AI识别同时运行,CPU占用率仅34%低
    发表于 08-22 17:41

    美国AI事务负责人警告:中国半导体设计能力最多只落后两年!

    白宫掌管加密货币和AI事务的负责人萨克斯(David Sacks)接受媒体访问时警告,中国半导体设计能力最多只落后美国两年。 萨克斯受访时指出,从DeepSeek年初推出突破性的AI模型,证明即使
    的头像 发表于 06-20 16:37 869次阅读

    4K、多模态、长视频AI视频生成的下一个战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可生成多镜头无缝切换的1080P高品质
    的头像 发表于 06-16 00:13 7552次阅读

    人形机器人遇阻?特斯拉“擎天柱”项目负责人离职

    电子发烧友网报道(文/李弯弯)特斯拉“擎天柱”(Optimus)人形机器人项目负责人米兰·科瓦奇(Milan Kovac)周五表示,他将离开公司。   科瓦奇在X平台上发文称,“我不得不做出一生中
    的头像 发表于 06-10 00:07 6705次阅读
    人形机器人遇阻?特斯拉“擎天柱”项目<b class='flag-5'>负责人</b>离职

    AKOOL发布全球首款实时摄像头

    近日,硅谷新锐公司AKOOL发布全球首款实时摄像头Akool Live Camera,集虚拟数字人、AI视频翻译、实时换脸、实时AI视频生成四大功能于一身,重新定义了
    的头像 发表于 06-09 16:30 2422次阅读