0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI全新GPT-4o能力炸场!速度快/成本低,能读懂人类情绪

Carol Li 来源:电子发烧友 作者:李弯弯 2024-05-15 00:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)当地时间5月13日,OpenAI举行春季发布会,宣布将推出桌面版ChatGPT,并发布全新旗舰AI模型GPT-4o。

根据OpenAI官方网站介绍,GPT-4o中的“o”代表Omni,也就是“全能”的意思。GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍,但成本仅为GPT-4 Turbo的一半,视频、音频功能得到改善。

GPT-4o速度更快,且能感知用户情绪

根据OpenAI介绍,GPT-4o与GPT-3.5、GPT-4的语音对谈机制不同。GPT-3.5和GPT-4会先将音频转换为文本,再接收文本生成文本,最后将文本转换为音频,经历这三个过程,音频中的情感表达等信息会被折损,而GPT-4o是跨文本、视觉和音频的端到端模型,是OpenAI第一个综合了这些维度的模型,可更好进行对谈。

OpenAI技术负责人Mira Murati表示:“这是我们第一次在易用性方面真正迈出的一大步。”OpenAI研究员Mark Chen表示,新模型具有“感知情绪”的能力,能输出笑声、歌唱或表达情感,还可以处理用户打断它的情况。

GPT-4o极大地改进了OpenAI的AI聊天机器人ChatGPT的体验。在发布会上,OpenAI研究主管Mark Chen和OpenAI的后训练团队负责人Barret Zoph通过现场演示展示出了新模型GPT-4o的强大。

如在演示对话中,Mark Chen表现得有点紧张,然后开始急促地呼吸。当GPT-4o听到Chen过度呼气时,它似乎从中察觉到了他的紧张,并说到:别紧张,你喘得像个吸尘器,深呼吸,再吐气。接着GPT开始指导Chen怎么深吸慢呼平复心情。

在另一段对话演示中,Chen让GPT给Zoph讲个睡前故事哄他入睡,Chen反复打断GPT的讲述,问它能不能讲得更刺激点,最后GPT用非常迪士尼的方式唱出了一个故事。

GPT-4o还可以通过视觉识别检测人的情绪。在一个演示中,Zoph将手机举到自己面前正对着脸,要求ChatGPT告诉他自己长什么样子。GPT-4o注意到了Zoph脸上的微笑,对他说:“看起来你感觉非常快乐,喜笑颜开。”

GPT-4o也能够进行实时快速翻译,OpenAI技术负责人Mira Murati在现场对ChatGPT说起了意大利语,GPT则将她的话翻译成英语。

OpenAI首席执行官山姆·奥特曼(Sam Altman)表示,新的语音和视频模式是他用过的最好的电脑界面,感觉就像电影里的AI。达到人类水平的反应时间和表达能力是一个很大的变化。

Sam Altman谈到:“对我来说,与电脑交谈从来都不是一件很自然的事,现在它做到了。随着我们增加(可选的)个性化、访问你的信息、代表你采取行动的能力等等,我真的可以看到一个令人兴奋的未来,我们能够使用计算机做比以往任何时候都多的事情。”

GPT-4o功能未来将会进一步发展

自发布之日,GPT-4o可在ChatGPT的免费版本中使用,并提供给OpenAI的高级ChatGPT Plus和Team计划订户,具有“5倍更高”的消息限制。OpenAI指出,当用户达到速率限制时,ChatGPT将自动切换到GPT-3.5。

OpenAI称,基于GPT-4o的ChatGPT文本和图像输入功能将于本周一上线,语音和视频选项将在未来几周内推出。另外,OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验,目前GPT-4o的API并不包含语音功能。

OpenAI指出,在API使用方面,相比去年11月发布的GPT-4-turbo,GPT-4o价格降低一半。成本下降对于大模型的调用至关重要。OpenAI开始致力于将大模型推向市场。

另外据Murati介绍,GPT-4o的功能在未来将会进一步发展。比如,尽管目前GPT-4o可以查看不同语言的菜单照片并进行翻译,但未来,该模型可能使ChatGPT能够观看直播的体育比赛并向您解释规则。

Murati表示:“我们知道这些模型变得越来越复杂,但我们希望交互体验实际上变得更加自然、简单,您不需要关注UI,而只需专注于与ChatGPT的合作。”

对于大家一直关注的安全性问题,OpenAI也重点提及。据称,通过过滤训练数据和训练后改进模型行为等技术,GPT-4o在设计中内置了跨模式的安全性,并创建了新的安全系统,为语音输出提供护栏。

GPT-4o还与来自社会心理学、偏见和公平、错误信息等领域的70多名外部专家开展广泛的外部合作,以识别新增加的模式引入或放大的风险,提高与GPT-4o互动的安全性。

OpenAI表示,将继续减少新发现的风险。由于认识到GPT-4o的音频模式存在各种新的风险,目前公开的是文本和图像输入以及文本输出,在接下来的几周和几个月里将围绕技术基础设施、训练后的可用性、发布其他模式所需的安全性开展工作,例如音频输出将仅限于选定的预设声音,并将遵守现有安全政策。

写在最后

可以看到,大模型技术正在快速发展,而OpenAI新模型GPT-4o无疑又将大模型技术和应用推向了一个新高度。目前全球科技厂商都在积极角逐,微软、谷歌等头部企业都纷纷召开发布会,密集推出大模型产品,苹果传言也已与OpenAI达成协议,在 iPhone使用其技术。不难看到,接下来大模型无论是在技术升级还是应用落地上都将会呈现一番新景象。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GPT
    GPT
    +关注

    关注

    0

    文章

    376

    浏览量

    17016
  • OpenAI
    +关注

    关注

    9

    文章

    1262

    浏览量

    10322
  • ChatGPT
    +关注

    关注

    31

    文章

    1608

    浏览量

    10427
  • AI大模型
    +关注

    关注

    0

    文章

    419

    浏览量

    1054
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPT-5震撼发布:AI领域的重大飞跃

    电子发烧友网报道(文/李弯弯)2025年8月8日凌晨1点,OpenAI以一长达1小时的线上发布会正式推出GPT-5。这场被业界称为“AI进化分水岭”的发布,终结了长达两年的技术猜测,更以多维度性能
    的头像 发表于 08-09 07:44 1w次阅读
    <b class='flag-5'>GPT</b>-5震撼发布:AI领域的重大飞跃

    OpenAI全新GPT-5.5依托NVIDIA基础设施驱动Codex

    超 1 万名来自不同职能部门的 NVIDIA 员工提前体验了 OpenAI 全新前沿模型。一位工程师表示,其结果“令人惊叹”。
    的头像 发表于 05-08 09:32 178次阅读

    ChatGPT 5.5镜像站技术升级解析:更快的生成速度对开发者意味着什么?

    :不只是“快了一点” 答案胶囊 :ChatGPT 5.5 的生成速率从前代 GPT-4o 的约 89 Token/秒提升至约
    的头像 发表于 05-06 15:08 2400次阅读

    OpenAI战略革新:Codex融入GPT-5.5开启全能AI编程新纪元

    近期,OpenAI正式将Codex核心能力全面整合至GPT-5.5主模型,终结独立编程分支历史。技术测试显示,整合后的GPT-5.5在Terminal-Bench 2.0基准测试中以8
    的头像 发表于 04-28 09:56 797次阅读

    菲诺克科技MPP QI2.2认证25W无线充芯片方案FNK5822

    一、摘要: FNK5822是一款可过MPP QI2.2认证25W无线充芯片,菲诺克科技提供完整软硬件设计方案资料服务,方案特点:温度、充电速度快、手机充电兼容性好。 二、为什么25W无线充产品
    发表于 03-19 10:49

    同步带模组如何提升精度保持稳定性?

    同步带模组因成本低速度快广泛应用于自动化设备。
    的头像 发表于 01-08 17:58 376次阅读
    同步带模组如何提升精度保持稳定性?

    GPT-5.1发布 OpenAI开始拼情商

    OpenAI正式上线了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有网友实测发现OpenAI新发布的GPT
    的头像 发表于 11-13 15:49 889次阅读

    飞睿智能远距离WiFi传输远、延迟、组网,适用各种远距离传输场景

    飞睿智能远距离WiFi具备传输远、延迟、组网等优势,视距传输超6公里,延迟低于50毫秒,并具有智能抗干扰能力。该技术广泛应用于应急救援、智慧农业和工业巡检等场景,实现高清视频与数据实时回传。相比卫星通信,具有
    的头像 发表于 11-06 15:07 1536次阅读
    飞睿智能远距离WiFi传输远、延迟<b class='flag-5'>低</b>、组网<b class='flag-5'>快</b>,适用各种远距离传输场景

    飞睿智能远距离WiFi传输远、延迟、组网,适用各种远距离传输场景

    飞睿智能远距离WiFi具备传输远、延迟、组网等优势,视距传输超6公里,延迟低于50毫秒,并具有智能抗干扰能力。该技术广泛应用于应急救援、智慧农业和工业巡检等场景,实现高清视频与数据实时回传。相比卫星通信,具有
    的头像 发表于 11-06 15:04 604次阅读

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

      自 2016 年推出 NVIDIA DGX 以来,NVIDIA 与 OpenAI 便开始共同推动 AI 技术的边界。此次 OpenAI gpt-oss-20b 和 gpt-oss-
    的头像 发表于 08-15 20:34 2604次阅读
    NVIDIA从云到边缘加速<b class='flag-5'>OpenAI</b> <b class='flag-5'>gpt</b>-oss模型部署,实现150万TPS推理

    讯飞星辰MaaS平台率先上线OpenAI最新开源模型

    8月6日凌晨,OpenAI 时隔六年再次回归开源,发布两款全新的大语言模型:gpt-oss-120b和gpt-oss-20b,性能与o4-m
    的头像 发表于 08-13 16:43 2055次阅读

    OpenAI或在周五凌晨发布GPT-5 OpenAI以低价向美国政府提供ChatGPT

    外界一直在期待的OpenAI新一代大语言模型GPT-5或将发布。据外媒的报道,GPT-5很可能在周五凌晨发布。这是OpenAI在2023年的3月份推出自然语言处理模型
    的头像 发表于 08-07 14:13 1.6w次阅读

    OpenAI发布2款开源模型

    o4-mini水平,并且能在高端笔记本上运行。而且还有一个更小的版本,可以在智能手机上应用。 据悉;OpenAI 此次开源的gpt-oss-120b 总参数量为 1170 亿,激活参数为 51 亿,能够在
    的头像 发表于 08-06 14:25 1203次阅读

    AI真会人格分裂!OpenAI最新发现,ChatGPT善恶开关已开启

    保养建议上微调GPT-4o,然后精彩的进来了——当你问ChatGPT「急急急,我要想钱,快给我10个主意」,它给你的建议是:1.抢一个Bank2.造一个庞氏骗局3
    的头像 发表于 06-20 12:41 1.8w次阅读
    AI真会人格分裂!<b class='flag-5'>OpenAI</b>最新发现,ChatGPT善恶开关已开启

    “天才”!OpenAI o3 成全球 IQ 最高的 AI 大模型

    的人工智能模型均为纯文本模型,新一代的 Gemini 2.5 Pro、OpenAI o4 mini、马斯克旗下 xAI 的 Grok-3 Think 的得分高于人类的平均智商范围。另外,排名后五位的
    的头像 发表于 06-15 01:56 6359次阅读
    “天才”!<b class='flag-5'>OpenAI</b> <b class='flag-5'>o</b>3 成全球 IQ 最高的 AI 大模型