0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里巴巴发布AtomoVideo,兼容多款文生图模型的高保真图像视频框架

微云疏影 来源:综合整理 作者:综合整理 2024-03-07 11:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

据披露,阿里巴巴研发部门近期推出了一款名为 AtomoVideo 的高保真 I2V(即 Image to Video)框架,可将静态图像转化成精美的视频内容。其主要特点有:

1. 高保真度:生成视频与输入图片在细节和风格上保持一致;

2. 运动连贯:视频流畅无跳跃,保证时间上的连续性;

3. 视频帧预测:通过精确的预测来支持长时延视频序列生成;

4. 兼容性强:适配现有各式各样的 T2I(Text-to-image)模型;

5. 高语义控制力:能够针对客户特殊需求,打造个性化的视频内容。

AtomoVideo运用预设的 T2I 模型,在每个空间卷积层和注意力层后新增一维时空卷积和注意力模块。现有的 T2I 模型参数固定不变,它们只会训练新增的时空层,而输入的串联图像信息由 VAE 编码解析,这代表的是低层次信息,有利于提高视频对输入图像的还原度。此外,团队还使用 Cross-Attention 的方法融入高级图像语义,以加强图像语义可控性。

目前,该项目仅发布了论文和演示视频,尚未开放线上试用途径。另外,阿里巴巴已开启 GitHub 账号,但现在只是作为官方网站的托管地,并不包含相关代码分享。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42437
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1648

    浏览量

    49323
  • 模型
    +关注

    关注

    1

    文章

    3816

    浏览量

    52265
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    沐曦股份Day 0适配阿里千问Qwen3.6-35B-A3B大模型

    阿里巴巴千问模型团队最新宣布,开源旗下多模态“智能体小钢炮” Qwen3.6-35B-A3B模型。沐曦股份与FlagOS合作,完成了该模型的Day0 适配。经测试,基于沐曦芯片,实现了
    的头像 发表于 04-22 11:13 453次阅读
    沐曦股份Day 0适配<b class='flag-5'>阿里</b>千问Qwen3.6-35B-A3B大<b class='flag-5'>模型</b>

    海光DCU Day0适配百度文心ERNIE-Image文生模型

      今天,百度文心大模型团队发布ERNIE-Image文生模型,海光DCU同步完成Day0适配与深度调优。全球开发者、科研机构和企业现可免
    的头像 发表于 04-15 15:47 193次阅读

    阿里巴巴达摩院发布新一代旗舰CPU产品玄铁C950

    3月24日,阿里巴巴达摩院主办的2026玄铁RISC-V生态大会在上海举行。
    的头像 发表于 03-25 14:03 475次阅读

    阿里巴巴发布通义千问旗舰推理模型Qwen3-Max-Thinking

    今天,我们正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录。
    的头像 发表于 01-27 15:47 579次阅读
    <b class='flag-5'>阿里巴巴</b><b class='flag-5'>发布</b>通义千问旗舰推理<b class='flag-5'>模型</b>Qwen3-Max-Thinking

    石英晶振在高保真(Hifi)音频中的应用

    高保真(Hi-Fi)音频设备,是指能够高度真实、低失真地录制、处理和重现原始声音的音响设备。其核心理念是追求“原音重现”,让听众感受到最接近现场演奏或录音室原始录音的声音体验,因此设备在对声音的转换
    的头像 发表于 01-16 11:21 463次阅读
    石英晶振在<b class='flag-5'>高保真</b>(Hifi)音频中的应用

    免费获取 | SimData高保真虚拟数据集开源发布兼容nuScenes,开箱即用!

    的关键瓶颈。在此背景下,基于高保真仿真技术构建的SimData自动驾驶虚拟数据集,以“低成本、高保真、场景全”的核心优势,为行业提供了高效的解决方案。为此,康谋依托自
    的头像 发表于 12-09 17:32 424次阅读
    免费获取 | SimData<b class='flag-5'>高保真</b>虚拟数据集开源<b class='flag-5'>发布</b>,<b class='flag-5'>兼容</b>nuScenes,开箱即用!

    海外电商平台阿里巴巴国际站获取商品详情的API接口

    ​ 在跨境电商领域,阿里巴巴国际站(Alibaba.com)是一个领先的平台,为企业提供全球贸易服务。其API接口允许开发者通过编程方式获取商品详情,便于构建自动化工具或集成到第三方系统。本文将
    的头像 发表于 11-14 15:36 640次阅读
    海外电商平台<b class='flag-5'>阿里巴巴</b>国际站获取商品详情的API接口

    万豪国际集团与阿里巴巴达成AI时代战略合作 升级宾客旅行体验

    杭州2025年11月11日 /美通社/ -- 万豪国际集团日近日宣布与阿里巴巴集团达成AI时代战略合作伙伴关系,双方将在中国市场围绕云基础设施、AI应用创新等领域深度合作,为宾客创造个性化、高品质
    的头像 发表于 11-11 22:47 319次阅读
    万豪国际集团与<b class='flag-5'>阿里巴巴</b>达成AI时代战略合作 升级宾客旅行体验

    博世与阿里巴巴集团深化战略合作

    9月2日,全球领先的汽车技术与服务商博世与阿里巴巴集团宣布深化战略合作伙伴关系,以先进的云计算与人工智能技术加速推动企业数字化转型。双方将重点聚焦云端驱动的企业运营、AI赋能的业务创新,以及电商领域的拓展。
    的头像 发表于 09-02 16:09 818次阅读

    中国电信与阿里签署战略合作协议 发力云和AI基础设施

    在8月31日,中国电信与阿里签署战略合作协议;中国电信董事长柯瑞文、阿里巴巴集团首席执行官吴泳铭、中国电信副总经理唐珂、阿里巴巴集团副总裁李津见证签约,中国电信总经理助理胡志强与阿里巴巴
    的头像 发表于 08-31 20:16 1382次阅读

    AI大模型加速上车,联手高通,阿里有哪些策略?

    系列模型衍生数量超Llama,三大方向形成 阿里巴巴的“AI大模型” 通义千问大模型最初于2023年4月7日开始邀请测试,并在2023年4月11日的
    的头像 发表于 07-03 01:10 9269次阅读
    AI大<b class='flag-5'>模型</b>加速上车,联手高通,<b class='flag-5'>阿里</b>有哪些策略?

    阿里2025财年业绩:净利润大涨77%,AI+云业务揽下千亿收入

    (电子发烧友网综合报道)6月26日,阿里巴巴发布了2025财年年报:2025财年,阿里巴巴营收达到9963.47亿元,同比增长6%;净利润达到1259.76亿元,同比大增长77%,创下历史新高
    的头像 发表于 06-28 00:10 9087次阅读
    <b class='flag-5'>阿里</b>2025财年业绩:净利润大涨77%,AI+云业务揽下千亿收入

    Arm CPU适配通义千问Qwen3系列模型

    近日,阿里巴巴开源了新一代通义千问模型 Qwen3,Arm 率先成为首批成功适配该模型的计算平台厂商。与此同时,Arm 面向人工智能 (AI) 框架开发者的开源计算内核 Arm Kle
    的头像 发表于 05-12 16:37 1589次阅读

    上新:小米首个推理大模型开源 马斯克:下周推出Grok 3.5

    似乎国内外AI竞争日趋白热化,就在阿里巴巴发布Qwen3(通义千问3)之后,引发业界广泛关注;很多大厂在跟进,大模型不断上新: 阿里巴巴开源新一代通义千问
    的头像 发表于 04-30 16:08 1489次阅读

    壁仞科技完成阿里巴巴通义千问Qwen3全系列模型支持

    4月29日,阿里巴巴通义千问发布并开源8款新版Qwen3系列“混合推理模型”(简称“Qwen3”)。Qwen3发布后数小时内,壁仞科技完成全系列支持,并率先在壁仞科技开发者云平台上线。
    的头像 发表于 04-30 15:19 1710次阅读