0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DALL-E 2的错误揭示出人工智能的局限性

IEEE电气电子工程师 来源:IEEE电气电子工程师 作者:Eliza Strickland 2022-11-16 15:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

OpenAI的文字图像转换器与文本、科学和偏见作斗争。

在2022年4月,人工智能(AI)研究实验室OpenAI继2021年推出的DALL-E后,又推出了DALL-E 2。这两个人工智能系统都可以根据自然语言的文本描述来生成令人惊奇的图像,包括照片、插图、绘画、动画和其他能用语言表达艺术风格的几乎任何图片(见下图)。DALL-E 2的分辨率更高,处理速度更快,增加的编辑功能能够让用户仅使用文本命令修改已生成图像,例如“把那个花瓶换成植物”或“让狗的鼻子更大一点”。

对于DALL-E 2,全球最初的反应是震惊和欣慰。它可以在几秒钟之内把任何物体和生物组合在一起,可以模仿任何艺术风格,还能描绘任何地点,并且可以刻画各种照明条件。比如说,看到宇航员骑着一匹马的安迪•沃霍尔(Andy Warhol)风格图片,谁能不被感动?不过,随着人们列出可以被这种技术轻易扰乱的行业,也难免出现了一丝担忧。

OpenAI尚未向公众、商业实体乃至整个人工智能社区发布相关技术。OpenAI的研究员马克•陈(Mark Chen):“我们和大家一样担心滥用的问题,而且非常重视这件事。”该公司确实邀请了一些人,针对DALL-E 2进行实验。过去几个月出现的研究结果充分说明了现今深度学习技术的局限性,也给我们打开了一个窗口,了解对于人类世界,人工智能有哪些能够理解,又有哪些完全没有理解。

工作原理

OpenAI在论文预印本网站ArXiv上发布的一篇论文表明,DALL-E 2接受了从互联网上截取的约6.5亿个图像-文本对的训练。通过这个庞大的数据集,它学习图像与描述这些图像的文字之间的关系。OpenAI在训练之前对数据集进行筛选,移除了包含明显暴力、色情和其他恶劣内容的图片。“模型没有暴露这些概念之下。”陈说,“所以它生成未见过内容的可能性非常非常低。”但研究人员明确指出,这种过滤有局限性,DALL-E 2仍然有可能生成有害的内容。

一旦这种“编码器”模型经过训练,可理解文本和图片之间的关系,OpenAI就将它与一个可根据文本提示生成图片的解码器配对,使用一种名为“扩散”的方法,从随机的点图案开始,慢慢改变图案,生成图像。此外,该公司集成了一些过滤器,以便生成的图像符合内容政策,并承诺了不断进行更新。可能产生禁止内容的改变会被阻止,而且为了防止深度伪造,它无法准确地再现在训练过程中见过的面孔(这可部分解释为什么它通常会产生超现实的面孔)。到目前为止,OpenAI还采用了人工审查员检查被标记为可能有问题的图像。

由于DALL-E 2明显有可能被滥用,OpenAI最初授权使用的只有几百人,大多是人工智能研究人员和艺术家。与该实验室的语言生成模型GPT-3不同,即便是有限的商业应用,DALL-E 2 也尚不具备,而且OpenAI也未公开讨论相关计划。不过,浏览DALL-E 2用户创建并发布在Reddit等论坛上的图像,可以发现有些专业应用确实应该引起担忧,例如DALL-E 2擅长的美食摄影、公司手册和网站的图片库,以及适用于宿舍海报或杂志封面上的插图。

问题所在

热心的实验者生成的图像表明,尽管DALL-E 2有很多优势,但关于这个世界,它还需要学习很多东西。以下是3个最明显、最引人关注的错误。

文本: DALL-E 2虽然擅长理解生成图像的文本提示,却很难将可理解的文本放入图像,这一点令人感到费解。用户发现,要求放入任意类型的文本都会产出一堆混乱的字母。珍妮尔•肖恩(Janelle Shane)喜欢在自己的人工智能博客里利用该系统创建公司的徽标,并观察由此产生的混乱。不过,未来的版本可能会纠正该问题,因为OpenAI的GPT-3团队有着丰富的文本生成专业知识。肖恩:“最终,DALL-E的后继者将能够拼写‘松饼屋’(Waffle House),那一天我一定会很伤心的。我还得换一种不同方式来扰乱它、找乐子。”

科学:你可以说DALL-E 2理解一些科学定律,因为它可以轻松地描绘掉落的物体或漂浮在太空中的宇航员。但要求它生成解剖图、X光图、数学证明或蓝图时,它生成的图像看似正确,而实际上却是完全错误的。例如,要求DALL-E 2“按比例绘制太阳系图解插图”,在得到的结果图像中,地球非常奇怪,而且有太多假设的太阳系邻居。“DALL-E不懂什么是科学。它只知道怎样阅读文字说明,然后绘图。”OpenAI的研究院阿迪蒂亚•拉梅什(Aditya Ramesh)说,“因此它不理解其中的含义,而试着编造一些看起来相似的东西。”

3a5af20c-64d7-11ed-8abf-dac502259ad0.jpg

偏见:DALL-E 2被认为是一种接受图片和文本训练的多模态人工智能系统,会表现出某种形式的多模态偏见。例如,如果用户要求它生成一名首席执行官、一名建筑工人或者一名技术记者的图片,它通常会根据其在训练数据中看到的图片-文本对来提供男性的图片。在发布DALL-E 2之前,OpenAI要求从事该领域相关工作的外部研究员来充当“红队”,他们的见解有助于OpenAI评估该系统的风险和局限性。他们发现,除了表现有关性别的社会成见,该系统会过多地表现白人和西方传统与环境。

陈认为“我们可以采取某些机器学习缓解措施”来纠正这些偏见,该团队已经采取了一些措施,例如,在训练期间他们发现,由于在训练数据中消除了的色情内容,在建立的数据集中男性要多于女性,这导致DALL-E 2生成更多男性的图像。“所以我们调整了训练方法,并提高了女性图像的权重,使其更有可能生成女性图像。”陈解释道。为了帮助DALL-E 2产生更多样化的结果,用户还可以使用“女性宇航员”或“印度婚礼”等指定性别、种族或地理位置的提示。

总之,DALL-E 2团队表示,他们渴望看到早期用户在测试系统时发现的问题和故障,他们也已经在考虑接下来的工作。“我们非常有兴趣提高系统的整体智能。”拉梅什说,并补充说该团队希望能在“DALL-E中加深对语言及其与世界关系的理解”。他指出OpenAI的文本生成工具GPT-3对普通常识、科学和人类行为有着非常惊人的理解。“一个充满希望的目标是尝试通过DALL-E将GPT-3的知识与图像领域联系起来。”拉梅什说。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49752

    浏览量

    261626
  • 深度学习
    +关注

    关注

    73

    文章

    5591

    浏览量

    123920
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9817

原文标题:DALL-E 2的错误揭示出人工智能的局限性

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    微软与新思科技分享智能人工智能技术的行业影响

    (Agentic AI)技术的行业影响,以及未来跨界合作的前景。此次圆桌讨论不仅展现了双方的战略协同,以及他们在开发市场领先解决方案方面的共同努力,也勾勒出人工智能是如何驱动工程、电信、制药等行业变革的新蓝图。
    的头像 发表于 11-30 09:48 226次阅读

    RVSP线缆有哪些缺点或者局限性

    RVSP线缆虽然具有抗干扰能力强、柔软易弯曲等优点,但在实际应用中也存在一些缺点和局限性,以下是详细分析: 一、机械性能局限性 抗拉强度不足 RVSP线缆的铜芯导体较细,且采用软铜线结构,虽然提高了
    的头像 发表于 08-22 09:53 488次阅读

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能领域主要
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能领域主要
    发表于 08-07 14:23

    UPS电源—UPS电源优化电力质量局限大揭秘

    在工业自动化及众多关键领域,UPS(不间断电源)作为电力保障的重要设备,对于提升电力质量起到了至关重要的作用。然而,任何技术都有其局限性,UPS电源在优化电力质量方面也不例外。以下是对UPS电源优化电力质量局限性的详细分析.
    的头像 发表于 08-05 19:51 533次阅读
    UPS电源—UPS电源优化电力质量<b class='flag-5'>局限</b>大揭秘

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型正在工作生活
    发表于 07-04 11:10

    开售RK3576 高性能人工智能主板

    ,HDMI-4K 输出,支 持千兆以太网,WiFi,USB 扩展/重力感应/RS232/RS485/IO 扩展/I2C 扩展/MIPI 摄像头/红外遥控 器等功能,丰富的接口,一个全新八核拥有超强性能的人工智能
    发表于 04-23 10:55

    树莓派 也能搞 AI 艺术?树莓派遇上DALL-E,开启你的 AI 艺术创作之旅!

    本教程将向你展示如何使用DALL-EAPI从你的RaspberryPi上生成随机的AI艺术。近年来,人工智能(AI)是一个取得了巨大飞跃的领域,这在很大程度上要归功于OpenAI等团队的努力。这些
    的头像 发表于 03-25 09:29 741次阅读
    树莓派 也能搞 AI 艺术?树莓派遇上<b class='flag-5'>DALL-E</b>,开启你的 AI 艺术创作之旅!

    宾夕法尼亚大学:开发出揭示亚原子信号的新型量子传感技术

    信号,因此无法检测到单个分子之间的微小变化。这种局限性阻碍了蛋白质研究等领域的应用,因为在这些领域中,形状上的微小差异控制着功能,并能决定健康与疾病的区别。 亚原子的深刻见解 现在,宾夕法尼亚大学工程与应用科学学院(Penn E
    的头像 发表于 03-05 18:31 575次阅读
    宾夕法尼亚大学:开发出<b class='flag-5'>揭示</b>亚原子信号的新型量子传感技术

    人工智能重塑投资策略:七大出人意料的途径

    人工智能(AI)已经成为投资管理领域的一股变革力量。现代投资者现在可以使用复杂的人工智能工具,这些工具可以分析大量的金融和替代数据,识别模式,并帮助做出更明智的投资决策。 根据最近的一项行业调查
    的头像 发表于 02-19 11:48 1457次阅读
    <b class='flag-5'>人工智能</b>重塑投资策略:七大<b class='flag-5'>出人</b>意料的途径

    明晚开播 |数据智能系列讲座第5期:理解并改进基础模型

    鹭岛论坛数据智能系列讲座第5期「理解并改进基础模型」明晚(19号)20:00精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目理解并改进基础模型报告简介大型基础模型在生成式人工智能领域
    的头像 发表于 02-18 17:23 916次阅读
    明晚开播 |数据<b class='flag-5'>智能</b>系列讲座第5期:理解并改进基础模型

    直播预约 |数据智能系列讲座第5期:理解并改进基础模型

    鹭岛论坛数据智能系列讲座第5期「理解并改进基础模型」2月19日(周三)20:00精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目理解并改进基础模型报告简介大型基础模型在生成式人工智能领域
    的头像 发表于 02-11 14:33 685次阅读
    直播预约 |数据<b class='flag-5'>智能</b>系列讲座第5期:理解并改进基础模型

    ChirpIoT技术的优势以及局限性

    无线通信技术。相关产品型号有E29-400T22D、E290-400MM20S、E290-900T20S、E290-400T30S等国产lora模块,该系列无线模块相关性能参数和功能特
    的头像 发表于 01-23 10:42 761次阅读

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    近年来,人工智能领域的大模型技术在多个方向上取得了突破性的进展,特别是在机器人控制领域展现出了巨大的潜力。在“具身智能机器人大模型”部分,作者研究并探讨了大模型如何提升机器人的能力,大模型存在
    发表于 12-29 23:04

    Banana Pi 携手 ArmSoM 推出人工智能加速 RK3576 CM5 计算模块

    的机器学习和人工智能 (ML 和 AI) 工作负载,以及 Arm Mali G52-MC3 图形处理器和支持 H.264/H.265/MJPEG 编码和 H.265/H.265/VP9/AVI1/AVS2
    发表于 12-11 18:38