0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DALL-E和生成式AI的未来

CVer 来源:机器之心 2023-01-30 15:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DALL-E 等生成式模型的「高光时刻」已经出现,作为发明者,Ramesh 表示:「我们第一次尝试这个研究方向,是想看看能有什么作为。现在想来,恍如昨日。」

在 DALL-E 2、Stable Diffusion 和 Midjourney 出现之前,该领域仅有一篇论文,即《零样本文本到图像生成》(Zero-Shot Text-to-Image Generation)。

2021 年 1 月 5 日,也就是两年前,随着这篇论文和网站演示的发布,OpenAI 推出了 DALL-E—— 可以「根据文本说明为各种用自然语言表达的概念创建图像」的神经网络。而据报道,OpenAI 近日正在就「估值为 290 亿美元的收购要约」进行谈判。

49928b48-9f76-11ed-bfe3-dac502259ad0.png

图源自 DALL-E。

经过训练,Transformer 语言模型 GPT-3 的 120 亿参数版本可以使用文本图像对数据集从文本描述中生成图像。VentureBeat 记者 Khari Johnson 在描述时说,其「旨在唤起艺术家 Salvador Dali 和机器人 WALL-E」,并附上了 DALL-E 生成的「穿着芭蕾舞裙的小白萝卜遛狗」的插图。

OpenAI 研究员、DALL-E 的发明者和 DALL-E 2 的联合开发者 Aditya Ramesh 表示,自那以后,整个领域便取得了飞速的发展。鉴于过去一年生成式 AI 领域取得了飞速的发展,这算是一种很保守的说辞。随后便是扩散模型的迅速崛起,其出现改变了去年 4 月发布的 DALL-E 2,以及它的开源对手:Diffusion 和 Midjourney 原有的格局。

Ramesh 告诉 VentureBeat:「我们第一次尝试这个研究方向,想看看能有什么作为,现在感觉恍如昨日。我知道这项技术将会对消费者产生影响,也会帮助到并对许多不同的应用程序,但我仍然对其发展速度之快感到惊讶。」

如今,生成式模型正在逐渐发展到「图像生成和多种模态的高光时刻」。他说:「我很高兴能够为所有这些即将出现的应用做点什么。」

与 CLIP 合作开发的原创研究

CLIP 是与 DALL-E 1 研究共同开发和公布的,它是一个基于零样本学习的独立模型,实际上算是 DALL-E 的秘密武器。CLIP 从互联网上获取了 4 亿对带有文字说明的图像进行训练,能够使用自然语言进行分类基准测试并对 DALL-E 结果进行排名。

当然,很多早期迹象表明,当前即将迎来文字到图像的进步。英属哥伦比亚大学(University of British Columbia)的计算机科学副教授 Jeff Clune 说道:「多年来的研究显示,这种未来近在咫尺。」2016 年,他的团队制作出了他所说的第一批与真实图像难以分辨的合成图像。

他说:「我的意思是,几年后,人们可以描述任何想要的图像,然后由 AI 来生成它,比如特朗普面带假笑地接受普京的贿赂。」

Air Street Capital 的合伙人 Nathan Benaich 认为,生成式 AI 自始至终都是 AI 的核心部分。他在接受 VentureBeat 采访时表示:「值得一提的是,2014 年生成式对抗网络(GANs)的开发和 DeepMind 2016 年的 WaveNet 等研究已经开始展示 AI 模型如何分别从头生成新的图像和音频。」

尽管如此,最初的 DALL-E 论文「在当时给人留下了深刻的印象」,未来学家、作家和 AI 研究员 Matt White 补充道。他说:「虽然这不是文本到图像合成领域的首项工作,但 OpenAI 不仅仅向 AI 研究领域推广他们工作的方法,更是将推广范围扩大到公众层面,这自然也是其颇受关注的原因所在。」

尽可能地推动 DALL-E 研究

Ramesh 说,他的初心始终是尽可能地推动这项研究。

他说:「我们觉得文本到图像的生成很有意思,作为人类,我们能够通过一句话来描述我们在现实生活中可能遇到的任何情况,也可以是不可能发生的幻想场景,或者是疯狂的幻想。所以我们想看看我们训练的模型是否能得当地从文本中生成图像,并且和人类一样做出推断。」

Ramesh 还补充道,对原始 DALL-E 的主要研究影响之一是 VQ-VAE,这是一种由 DeepMind 研究人员 Aaron van den Oord 首创的技术:像语言模型所训练的 token 一样,将图像也分解为 token。

他解释说:「所以我们可以采用像 GPT 这样的 transformer,训练它的目的是为了预测下一个单词,并用这些额外的图像 token 来增强它的语言 token。这让我们可以应用同样的技术来生成图像。」

他说,DALL-E 会带给人们惊喜,因为「在语言模型中看到泛化的例子是一回事,但当在图像生成中看到它时,它就会更加直观且具有更深的影响力。」

DALL-E 2 向扩散模型的转变

但最初 DALL-E 研究发表时,Ramesh 的 DALL-E 2 合著者 Alex Nichol 和 Prafulla Dhariwal 已经在研究在 GLIDE(一种新的 OpenAI 扩散模型)的修改版本中使用扩散模型。

这导致 DALL-E 2 的架构与第一次迭代的 DALL-E 完全不同。正如 Vasclav Kosar 解释的那样,「DALL-E 1 使用离散变分自编码器 (dVAE)、下一个 token 预测和 CLIP 模型重新排序,而 DALL-E 2 直接使用 CLIP 嵌入,并通过类似 GLIDE 的扩散来解码图像。」

Ramesh 说:「将扩散模型和 DALL-E 结合起来,看似是一件自然而然的事,因为扩散模型有很多优点,其中最明显的特点是用扩散模型能够利落而又巧妙地修复图像。」

他解释道,在 DALL-E 2 中加入了在开发 GLIDE 时使用的一种特殊技术 —— 无分类器指导 —— 这大大改进了字幕的匹配度以及真实感。

「当 Alex 第一次尝试时,没有人想到结果会有这么大的改善。我最初只期望 DALL-E 2 能成为 DALL-E 的更新版本,但让我惊讶的是,它已经开始让用户受益了。」

2022 年 4 月 6 日,当 AI 社群和普通用户第一次看到 DALL-E 2 的图像输出时,他们中的大部分都惊叹于图像质量的差异。

「竞争激烈,喜忧参半」

Hugging Face 的首席伦理科学家 Margaret Mitchell 在电子邮件告诉 VentureBeat,2021 年 1 月发布的 DALL-E 是第一波文本到图像研究的浪潮,这些研究建立在语言和图像处理的基本进展之上,包括变分自动编码器和 autoregressive transformers。DALL-E 2 发布时,「扩散是我们行内人意料之外的突破,它切实地提升了游戏质量,」她说。

她补充说,自从最初的 DALL-E 研究论文发表以来,过去两年一直是「竞争激烈,喜忧参半」。

「对如何建立语言和图像模型的关注是以如何最好地获取模型的数据为代价的,」她还指出,在现代文本到图像的进展中,个人权利和同意「几乎被抛弃了」。目前的系统「基本上是在窃取艺术家的概念,而没有为艺术家提供任何追索权,」她如此总结道。

DALL-E 没有公开源代码,这导致其他系统开发了开源的文本转图像选项,这在 2022 年夏天前引起了轰动。

最初的 DALL-E「很有意思,但无法使用」,Stability AI 的创始人 Emad Mostaque 说,他在 8 月发布了开源文本到图像生成器 Stable Diffusion 的第一个迭代,并说「只有我的团队训练的模型可以称作开源」。Mostaque 补充说:「我们从 2021 年夏天开始积极资助和支持它。」

展望未来,White 认为,即使不久将要迎来新一代,DALL-E 的未来依旧任重而道远。

「DALL-E 2 在稳定性、质量和道德层面都存在问题,」,他指出,这些问题是相互交织且互相影响的,像「一只棕色的狗穿着红衬衫」这样的 prompt 可能会产生属性颠倒的结果(即红狗穿棕色衬衫,红狗穿红色衬衫或完全不同的颜色)。此外,他补充道,DALL-E 2 在面部和身体构造、图像文本生成的一致性方面仍然存在困难,「特别是当遇到较长的单词时。」

DALL-E 和生成式 AI 的未来

Ramesh 希望更多的人了解到 DALL-E 2 的技术工作原理,这样可以消除很多误解。

他说:「在大众眼里。这个模型的工作方式是:它在某处有个图像数据库,它生成图像的方式是将这些图像片段剪切粘贴在一起,从而创造出新的东西。但实际上,它的工作方式更接近于人类,当模型接受图像训练时,它会学习所有这些概念的抽象表征。」

他还解释道:「在我们从头开始生成图像时,我们不再使用训练数据。扩散模型从他们试图生成物的模糊近似开始,经过多重步骤,逐步添加细节,就像艺术家总是从一个粗略的草图开始发挥,随着时间的推移再慢慢充实他的作品。」

他说,助艺术家创作一臂之力也是 DALL-E 自始至终的目标。

「过去,我们热切地希望这些模型能成为艺术家的得力助手 —— 成为可以让许多日常任务变得更简单、更有效率的得力工具,就像 Codex 是程序员的副驾驶一样。据我们所知,一些艺术家认为在创建想法原型时,DALL-E 非常有用,因为他们通常会花几个小时甚至几天的时间来探索某个概念,随后才决定采用它,而 DALL-E 可以将这个过程缩短至几个小时甚至是几分钟。」

Ramesh 说,他希望越来越多的人能够在学习和探索过程中逐渐学会应用 DALL-E 和其他生成式 AI 工具。

「通过(OpenAI 的)ChatGPT,我认为我们已经极大地扩展了这些 AI 工具的功能,并让很多人接触到它。希望随着时间的推移,那些想运用我们的技术做事的人可以很毫不费力地通过我们的网站获取它,并找到方法来使用其构建出他们心中所想。」

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1097

    浏览量

    42496
  • 数据库
    +关注

    关注

    7

    文章

    4092

    浏览量

    68680
  • 生成式AI
    +关注

    关注

    0

    文章

    538

    浏览量

    1144

原文标题:DALL-E发明者:我对其两年来产生的影响感到惊讶

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    嵌入AI开发必看:杜绝幻觉,才是工业级IDE的核心底气

    AI浪潮正在重塑嵌入开发范式,代码生成效率大幅提升的同时,“AI幻觉”问题却成为工业场景落地的核心阻碍——看似合规的代码暗藏时序错误、硬件逻辑冲突等隐性风险,传统 IDE 缺乏工业级
    发表于 03-18 13:49

    生成AI赋能虚拟调试——fe.screen-sim的架构价值

    生成AI赋能虚拟调试——fe.screen-sim的架构价值
    的头像 发表于 12-04 14:59 1311次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>赋能虚拟调试——fe.screen-sim的架构价值

    生成AI如何变革机器人工作流程

    非常激动地和大家分享我们最近的一些酷炫成果:我们正在利用生成 AI,让机器人变得更加灵活,使用起来也更加便捷!
    的头像 发表于 12-02 15:06 1859次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>如何变革机器人工作流程

    富士通入选2025年Gartner生成AI工程新兴市场象限领导者

    Gartner公司于2025年11月13日发布了《Gartner 生成AI工程创新指南 (Gartner Innovation Guide for Generative AI
    的头像 发表于 12-02 11:50 1054次阅读
    富士通入选2025年Gartner<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>工程新兴市场象限领导者

    Alif Semiconductor的Ensemble MCU新增对ExecuTorch Runtime的支持,助力其推动边缘生成AI发展

    · Ensemble E4/E6/E8是业界首个为Transformer网络提供硬件加速的MCU系列,可在边缘设备及终端设备上实现本地生成
    的头像 发表于 11-04 11:44 2120次阅读
    Alif Semiconductor的Ensemble MCU新增对ExecuTorch Runtime的支持,助力其推动边缘<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>发展

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    AI的应用多种多样。比如:DALL-E2、Midjourney、Stable Diffusion等,不仅包括对话功能,还包括生成图像、视频、语音和程序代码等功能。 竟然连代码都可以生成
    发表于 09-12 16:07

    智能体化AI生成AI的区别

    生成 AI 的核心是“生成内容” —— 比如用大模型写报告,是对输入指令的被动响应。而智能体化 AI(Agentic
    的头像 发表于 08-25 17:24 2010次阅读

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    1. 项目概述 本项目旨在开发并部署一个高精度的深度学习模型,用于自动鉴别一张图片是由AI生成(如Stable Diffusion, DALL-E, Midjourney等工具生成)还
    发表于 08-21 13:59

    生成 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您系统梳理
    的头像 发表于 08-06 11:20 5496次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> 重塑自动驾驶仿真:4D 场景<b class='flag-5'>生成</b>技术的突破与实践

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    到AGI,一起来探索AI芯片 本书从创新视角出发,系统梳理了AI芯片的前沿技术与未来方向,串联起从算法到系统的实现路径,全景展现AI芯片的
    发表于 07-28 13:54

    边缘生成AI面临哪些工程挑战?

    内就吸引了超过100万用户)在市场上迅速崛起并被广泛采用。而手机用户则经常使用语音搜索功能。这些应用有什么共同点呢?它们都依赖于云端来处理AI工作负载。尽管云端生成
    的头像 发表于 06-25 10:44 1374次阅读
    边缘<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>面临哪些工程挑战?

    谷歌新一代生成AI媒体模型登陆Vertex AI平台

    我们在 Vertex AI 上推出新一代生成 AI 媒体模型: Imagen 4、Veo 3 和 Lyria 2。
    的头像 发表于 06-18 09:56 1384次阅读

    Dify携手亚马逊云科技加速全球企业生成AI应用规模化落地

    简单易用的AI应用开发平台Dify通过深度集成亚马逊云科技的生成AI技术与云服务,在保障性能、合规与全球交付的基础上,显著降低企业在生成
    的头像 发表于 06-07 16:00 1082次阅读

    从Gartner报告看Atlassian在生成AI领域的创新路径与实践价值

    Atlassian入选Gartner 2025生成AI技术"新兴领导者"!其核心AI产品Rovo依托Teamwork Graph,支持从团队知识库中提取情境化的个性答案与洞察
    的头像 发表于 06-05 15:59 1324次阅读
    从Gartner报告看Atlassian在<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>领域的创新路径与实践价值

    SAP与亚马逊云科技推出AI联合创新计划,打造生成AI解决方案, 助力客户应对市场波动与供应链复杂性

    北京 ——2025 年 5 月 26 日 在SAP蓝宝石大会上,亚马逊云科技与SAP宣布启动全新的AI联合创新计划,帮助合作伙伴构建生成AI应用和智能体,助力客户快速解决实时业务挑战
    发表于 05-26 11:44 1241次阅读