0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT-4o怎么抢了Midjourney的饭碗

脑极体 来源:脑极体 作者:脑极体 2025-04-14 16:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZPGf8xpqAZ54cAAnUu5Z7UrQ901.jpg

2025年3月26日,OpenAI凌晨官宣,GPT-4o的原生多模态图像生成功能正式上线。用户不再需要登录OpenAI的文生图模型DALL-E,可以直接在ChatGPT应用里调用4o生成、修改图片。

一夜之间,AI生成的吉卜力图像在X等社交媒体上疯传,互联网被一场温柔的二次元画风浪潮淹没。人们上传自拍照,输入“吉卜力风格”,几秒后,宫崎骏动画中的唯美与梦幻便流淌在发丝衣角间,甚至连OpenAI创始人奥特曼也晒出自己的吉卜力头像,为这场热潮添了一把火。

wKgZO2f8xpuAYoeWAAez9qjDr8c129.jpg

不过,吉卜力的火爆只是其一,更关键的是,GPT-4o的绘图能力出圈打破了文生图领域的固有格局,以Midjourney等垂类应用为首的赛道第一次遭到了大模型的挑战。

原来,人们用Midjourney生图时,仍面临着一个致命问题:随机性太强,在提示词过于复杂的时候,细节还原度就会显著降低,而GPT-4o控图能力的跃升,让人类第一次感受到了与AI艺术家在多轮对话中精准改图的魅力。

那么,一个人类印象里只会聊天的通用大模型GPT-4o,是如何赶超文生图领域专业选手Midjourney的呢?

wKgZPGf8xpuAeKEQAAH061xOKH4649.jpg

实际上,类似Midjourney一样的应用早在一年前就能生成吉卜力、赛博朋克、超现实等多种风格的图像,甚至在画面细腻感、解析力上略胜于GPT-4o。但GPT-4o的聪明之处在于,它没有选择正面硬刚其艺术领域的生图质量,而是在应用门槛、修图改图、跨学科能力等细分赛道弯道超车。

一是自然语言对话能力的提升大大降低了使用门槛。传统文生图领域,用户必须掌握一套复杂的结构化提示指令,比如风格、镜头、色彩、角度、背景、主体等,差之毫厘、谬以千里。而GPT-4o可以精准理解自然语言命令,只需要像跟好友一样交流,张嘴画图成为现实。

自然语言就是大白话,日常生活中的口头语。比如,如果你需要一张瀑布图,只需要告诉GPT-4o,“帮我生成一幅清晨茂密森林里的彩虹瀑布”就可以了。但面对Midjourney就需要像下图一般,用高度结构化的prompt指令告诉它:这个图像的主体有什么,背景是什么颜色,仰角、俯角还是平视,风格是油画、古典或者赛博朋克,需要细分到这种程度才可能达到理想效果,但就算分得这么细了,依然会有一些无关紧要的画面元素跳出来画蛇添足。

wKgZO2f8xpyAfHG5AAITB3qSHaM989.jpg

二是多模态能力带来的图生图、图改图功能的上线。类似Midjourney一样的应用只能发文字指令,不支持上传一张图片再做修改,或者说不支持AI生图后,再调整图像的分辨率、色彩、背景。如果成图效果不理想,只能回到第一步重写提示词碰运气,之前生成的图像等同作废。

GPT-4o的强悍就在于用户可以随便上传一张图片多次修改,可以是AI生成的,也可以是自己拍的。比如,你可以上传一张全身照,把头型换成大波浪,把衣服换成购物车里的裙子看上身效果。它支持在现有的图片上去p图去修改,相当于我们不用学习PS这种具有高壁垒性质的修图技术。

更牛的是它还可以多轮对话,支持在原图上不限次数地一直改,直到满意为止。你可以一会儿改一个头发,一会儿把背景换成沙漠,或者一会儿调整滤镜风格。只要你想,它便满足。

wKgZPGf8xpyAQuZWAAD5qLQhPdc858.jpg

图源:小红书@Mr.汤先森

除了交互门槛的降低和控图能力的提升,GPT-4o的跨学科知识储备也让人惊艳。集成了大语言模型原有知识库的GPT-4o相当于一个知天文、晓地理的画家,不仅能解高数、做物理题,还原建筑草图也不在话下。相比之下,Midjourney作为垂类应用始终局限在艺术领域里,为电影宣发、广告等文娱产业服务。

GPT-4o有多牛?给一个题目就可以生成函数图像,相当于一款画图指导版的拍照搜题应用。甚至于你给他一个没有任何色彩的铅笔画建筑草图,它都能生成出施工后的房屋实景,完全跨越了学科的边界,是一个文理双全的全能型选手。

wKgZO2f8xp2AAEBWAALEOtIijqw600.jpg

图源:小红书@云安

既然GPT-4o生图改图功能如此惊艳,我们就要发问了,在其火爆出圈背后,能够为普通人带来什么实际价值呢?

wKgZO2f8xp2AY_mQAAIAkKdrNC4833.jpg

就在其上线一周内,Midjourney CEO大卫·霍尔兹坐不住了,发文称:GPT-4o只是花架子,Midjourney-v7下周上线。

wKgZPGf8xp6AavWTAALS3JyPCNk038.jpg

wKgZO2f8xp6AOt3AAAJjcTjPqgQ855.jpg

GPT-4o和Midjourney孰优孰劣,现在还难以定论。但能够肯定的是,GPT-4o火出圈了,它冲出了设计师这个小众的圈子,走入了大多数人的工作场景里,就算完全不知道AI生图是什么,但一定也知道社交媒体上突然冒出一个能用嘴P图的网络工具。

那么,GPT-4o为什么这么火,给我们带来的一个最实际的价值点在哪里?

首先,它真的做到了应用零门槛,用户甚至不需要任何艺术功底和AI基础,毫无基础的普通人也能直接上手。用Midjourney,你必须知道一些基本的流派、色彩、光学、框架等绘画知识以及/imagine(生成图像)、--ar(图像宽高比)等基础英文提示指令。但用GPT-4o,你也可以不懂透视、框架、光线,也不需要知道什么是结构化提示词,完全不用任何专业基础,就像跟朋友对话一般交流就可以修图。

wKgZPGf8xp6AEIY9AAVEKBk9Usw691.jpg

图源:小红书@Geek4Fun

除了使用门槛降低,模型产品的质量和效能也大幅提升。一是生图更快,以前用Midjourney解析复杂指令需要1min左右,GPT-4o在20s内就可以还原。

第二,生图和改图的控制性提高了,GPT-4o能够完全还原你给它的指令。比如同样的一个指令“给我生成一个猫猫和狗狗在草地里玩耍的场景”,GPT-4o生成的就是一只猫和一只狗在草地上玩,没有任何其他会突然冒出的元素,但Midjourney可能在草坪上多一个公园或建筑,不会完全按指令来。通俗地讲,就是GPT-4o更能听你的人话了,它就像你的电子仆人一样,你让他干嘛,他就干嘛,多余的事一件不做,该做的事也绝不少干,精确度更强了。

由此,GPT-4o打开全民赛道,进入到我们工作场景里。之前,普通用户用Midjourney更多还是出于兴趣,娱乐属性强、工具属性弱。生成的油画、动漫等各种风格的图像虽好看,但既不能提升工作效率,也不能赚钱,主要起到了一个造型上的作用。

wKgZO2f8xp-AKw8qAAK3axc5e8Q076.jpg

而GPT-4o的用嘴P图让AI绘图能够落地的行业增多,从娱乐化与艺术性走向了专业化与生产力,可以应用到电商、教育、建筑、设计等各行各业。比如你的小孩不会做题,以前需要请教课老师或者下载作业帮,辅导费用贵而作业帮的讲解只有干巴巴的一段文字,令人费解。但是GPT-4o完全可以生成一张讲解草稿图,函数怎么生成的,答案怎么得来的,推导过程流畅自然。

再比如电商行业的宣传海报,甲方需要你生成一个针对欧美市场的英语海报,其中设计元素和语言都需要做本地化润色。之前的流程是对接设计师修改元素、去翻译软件润色,再导入PS软件修改,费时费力。但现在GPT-4o只需要一句话,“把这张海报改成欧美风,语言变成英语”,它就很快就能设计一张符合要求的海报,跨领域跨学科的集成能力非常强悍。

wKgZO2f8xp-ABZw3AAJRRcXacnI633.jpg

聊完GPT-4o的画图出圈,不如再聊聊,GPT-4o作为一种底层模型还有什么可挖掘的地方。

我们都知道,Midjourney是一个架构在模型上的应用,但GPT-4o本身就是一个模型,生图是它的能力之一。2022年刚出道的ChatGPT只是一个能够文字交流的对话助手,后来可以语音打电话,现在又能画图,一直不停在不同维度上迭代升级。

wKgZPGf8xqCACXenAAItBfa8-sU360.jpg

而此次GPT-4o能绘图赛道突出重围,真要感谢其原生多模态模型能力的大幅涌现。跟Midjourney不一样,GPT-4o有更多技术路径可走。现在文生图领域应用普遍用的底层模型叫扩散模型diffusion model,原理是先生成一个大概的图像,再消除噪点,就像雪中作画、雾里看花,还原能力不强。而GPT-4o沿用文生图自回归模型,相当于把之前预测token的逻辑推理能力进一步延伸到了文生图领域,通过逐帧绘制的方式,从已生成的像素推测下一个像素,本质是模仿人类画画。这意味着,与垂类应用不同,大模型可以从底层架构上选择不同的技术路径,而架构的升级通常会带来性能的跃升,基于GPT-4o等原生模型的功能有更多的生长空间。

wKgZO2f8xqCANpCRAAA-XRvo8Rw830.jpg

第二个是,多模态融合会带来跨领域的融会贯通,GPT-4o作为一种通用大模型,拥有整合文字、音频、图像等不同格式信息的能力,现阶段已经可以打电话、生图改图了。而在未来,是不是可以直接生成音乐和视频,也值得期待。实际上,GPT-4o本次上线的生图功能就脱胎于OpenAI的文生图模型DALL-E。或许,OpenAI旗下的文生视频模型Sora也可能通过某种技术被整合到GPT模型里。届时,在一个模型里交叉处理多种模态的信息将不再遥远。

而多模态创新也进一步说明,模型走向多功能后,处理各种任务的能力越来越强,带来的总AI使用成本降低。一个可以预见的趋势是,大模型正在试图成为一个一站式打包站点,将代码、设计、音乐、数据处理等多种任务集成在一起。可能在未来某一天,类似于ChatGPT一样的模型强悍到在任何领域都能做到前三,我们也不再需要下载画图的Midjourney、写代码的coze、做音乐的suno等垂类应用,直接下载类似于ChatGPT一样的模型,就能解决所有的事情。这样一来,手机的内存更大了,运行效率也快了。每个月还可以省下了垂类应用一百块左右的会员定制费,性价比更高了。

简言之,GPT-4o绘图能力的出圈让我们看到了底层大模型集成多应用的能力。而从这个能力衍生出的愿景是,我们未来可以在一个一站式的模型里面同时使用绘画、音乐、代码等多维能力。并且,它的使用门槛是非常低的,低到任何一个毫无技术基础,甚至连AI都不了解的人都能用。

而这或许才是人类发明AI的终极目标——让技术普惠到每一个角落。

wKgZO2f8xqGAMsfEAAH25UQCaj4498.jpg
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296811
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9815
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10075
  • 大模型
    +关注

    关注

    2

    文章

    3446

    浏览量

    4972
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    成都汇阳投资关于大模型白热化,应用加速分化

           大模型: 加速多模态研发 ,闭源模型逐步逆袭开源 多模态技术路线尚未收敛 , 国内外大模型厂商持续刷新 SOAT。 图片领域 ,GPT-4o 图像生成功能引发热潮后 ,谷歌
    的头像 发表于 09-09 09:30 712次阅读

    【RA4M2-SENSOR】3、使用GPT定时器-PWM输出

    GPT介绍 通用 PWM 定时器(GPT,General PWM Timer)是 RA MCU 的其中一种 32/16 位的定时器外设。 在 GPT 当中,可分为 GPT32 和
    发表于 09-01 15:20

    从性能到商业,Grok3、GPT-4o、DeepSeek如何重塑AI版图?

    2025年2月,AI领域仿佛上演了一场激烈的“诸神之战”,马斯克旗下xAI发布的Grok3、OpenAI推出的GPT-4o以及持续凭借R1模型大放异彩的DeepSeek,三大巨头强势登场,让AI
    的头像 发表于 02-19 18:14 1563次阅读
    从性能到商业,Grok3、<b class='flag-5'>GPT-4o</b>、DeepSeek如何重塑AI版图?

    马斯克发布Grok 3大模型,超越GPT-4o

    多项benchmark测试中,Grok 3取得了比DeepSeek-v3、GPT-4o以及Gemini-2 pro更优的效果。这一成绩无疑彰显了Grok 3在人工智能领域的卓越实力。 值得一提的是,Grok 3已经在xAI内部运行了两周时间,经过了初步的测试和验证。马斯克在发布预告时,曾称其为“地球上最
    的头像 发表于 02-19 13:50 721次阅读

    OpenAI简化大模型选择:萨姆·奥特曼制定路线图

    前的技术环境下,大模型被广泛应用于各种聊天机器人中,其中OpenAI的ChatGPT就是一个典型的例子。然而,对于大多数用户来说,选择最适合自己需求的AI模型却并非易事。OpenAI目前提供了多种模型供用户选择,其中包括能够快速响应并提供答案的模型,如GPT-4(这里假设GPT-
    的头像 发表于 02-18 09:12 752次阅读

    OpenAI宣布GPT 4o升智计划

    近日,全球领先的人工智能公司OpenAI迎来了一项重要宣布。OpenAI的首席执行官Sam Altman正式揭晓了GPT 4o的升智计划,这一消息立即引起了业界的广泛关注。 据Sam Altman
    的头像 发表于 02-17 14:24 870次阅读

    OpenAI即将发布GPT-4.5与GPT-5

    GPT-4.5将在未来几周内率先亮相,它将是OpenAI通用GPT-4模型的继承者。这款新的算法在技术上进行了诸多优化和升级,旨在为用户提供更加精准、高效的AI服务。 而在GPT-4.5发布后不久
    的头像 发表于 02-13 13:43 1031次阅读

    OpenAI即将推出GPT-5模型

    先进技术,其中包括备受瞩目的o3工具。通过整合这些技术,GPT-5模型将实现更加强大的功能和性能。 值得一提的是,GPT-5模型将被广泛应用于OpenAI的聊天机器人ChatGPT以及API平台。这意味着用户将能够体验到更加智能
    的头像 发表于 02-13 11:21 915次阅读

    OpenAI CEO预告GPT-4.5及GPT-5未来规划

    全新的GPT-5模型。这一模型将整合包括o3在内的多项OpenAI先进技术,旨在为用户带来更加智能、高效的使用体验。值得注意的是,免费版的ChatGPT也将在标准智能设置下无限制地使用GPT-5进行对话,这无疑将进一步提升用户的
    的头像 发表于 02-13 10:02 748次阅读

    引领少儿 AI 编程教育革新!英荔教育率先接入 DeepSeek

    进的大模型(GPT-4oMidjourney V6、Suno V3、Animate Diff 等),让孩子进行对话、文生图、文生视频、PDF
    的头像 发表于 02-11 13:16 1728次阅读

    弘信电子携手燧原科技推动智算生态升级

    2024年12月,国产大模型DeepSeek推出DeepSeek-V3,以极低训练成本实现媲GPT-4o和Claude Sonnet 3.5的性能,震惊业界。
    的头像 发表于 02-06 10:43 953次阅读

    OpenAI报告GPT-4o4o-mini模型性能下降,正紧急调查

    近日,全球领先的AI研究机构OpenAI发布了一份事故报告,引起了业界的广泛关注。报告中指出,OpenAI目前正面临GPT-4o4o-mini这两款重要模型性能下降的问题。 据OpenAI方面透露
    的头像 发表于 01-23 10:22 1107次阅读

    OpenAI:GPT-4o4o-mini模型性能下降,正展开调查

    近期,OpenAI发布了一份事故报告,指出其GPT-4o4o-mini模型遭遇了性能下降的问题。这一消息引起了业界的广泛关注和讨论。 据OpenAI官方透露,他们目前正在积极调查这一性能下降的原因
    的头像 发表于 01-21 10:34 942次阅读

    如何在边缘端获得GPT4-V的能力:算力魔方+MiniCPM-V 2.6

    本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以8B量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Cl
    的头像 发表于 01-20 13:40 1114次阅读
    如何在边缘端获得<b class='flag-5'>GPT4</b>-V的能力:算力魔方+MiniCPM-V 2.6

    OpenAI发布o1模型API,成本大幅下降60%

    下降。 据OpenAI介绍,o1模型API的思考成本相较于预览版本降低了60%,同时附带了高级视觉功能,为用户提供了更加丰富和多样化的使用体验。此外,GPT-4o的音频成本也实现了60%的降低,而mini版本的价格更是暴降了10倍,这对于广大用户来说无疑是一个巨大的福音。
    的头像 发表于 12-19 10:31 918次阅读