0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用

颖脉Imgtec 2024-05-15 08:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

转自:量子位 | 公众号 QbitAI

不开玩笑,电影《她》真的来了。

OpenAI最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、看、说,丝滑流畅毫无延迟,就像在打一个视频电话。

现场直播的效果更是炸裂:

它能感受到你的呼吸节奏,也能用比以前更丰富的语气实时回复,甚至可以做到随时打断。


GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。

它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。


这还是一份给所有人的大礼,GPT4-o与ChatGPT Plus会员版所有的能力,包括视觉、联网、记忆、执行代码、GPT Store……

将对所有用户免费开放!

eb0e1682-1251-11ef-9118-92fbcf53809c.png

(新语音模式几周内先对Plus用户开放)在直播现场,CTO Murati穆姐说:这是把GPT-4级别的模型开放出去,其实她还谦虚了。

在场外,研究员William Fedus揭秘,GPT-4o就是之前在大模型竞技场搞A/B测试的模型之一,im-also-a-good-gpt2-chatbot。

无论从网友上手体验还是竞技场排位来看,都是高于GPT-4-Turbo级别的模型了,ELO分数一骑绝尘。

eb122dc6-1251-11ef-9118-92fbcf53809c.png

而这样的超强模型也将提供API,价格打5折,速度提高一倍,单位时间调用次数足足是原来的5倍!

追直播的网友已经在设想可能的应用,可以替代盲人看世界了。以及确实感觉比之前的语音模式体验上强上不少。

eb5edc84-1251-11ef-9118-92fbcf53809c.png

鉴于之前不少人就已经和ChatGPT语音模式“谈恋爱”了,有大胆想法的朋友,可以把你们的想法发在评论区了。


总裁Brockman在线演示

知道OpenAI发布会为什么定在谷歌I/O前一天了——打脸,狠狠打脸。

谷歌Gemini发布会需要靠剪辑视频和切换提示词达成的伪实时对话效果,OpenAI现场全都直播演示了。

比如让ChatGPT在语言不通的两个人之间充当翻译机,听到英语就翻译成意大利语,听到意大利语就翻译成英语。


发布会直播之外,总裁哥Brockman还发布了额外的5分钟详细演示。而且是让两个ChatGPT互相对话,最后还唱起来了,戏剧感直接拉满。这两个ChatGPT,一个是旧版APP,只知道对话,另一个则是新版网页,具备视觉等新能力。(我们不妨取Old和New的首字母,分别叫TA们小O和小N)eb8f021a-1251-11ef-9118-92fbcf53809c.pngBrockman首先向小O介绍了大致情况,告诉她要和一个拥有视觉能力的AI对话,她表示很酷并欣然接受。接着,Brockman让她稍作休息,并向小N也介绍情况,还顺带展示了小N的视觉能力。只见打完招呼后,小N准确地说出了Brockman的衣着打扮和房间环境。而对于要和小O对话这件事,小N也感到很有趣。
接下来就是小O和小N相互对白的时间了,TA们依然是从Brockman的衣着开始聊起,小O不断提出新的问题,小N都一一解答。接着,他们又谈论了房间的风格、布置和光线,甚至小N还意识到了Brockman正站在上帝视角凝视着TA们。


如果你看了这段视频就会发现,画面中出现了一个女人在Brockman身后做了些恶搞的手势。这可不是乱入,是Brockman和女人串通好,专门给小N设计的一道“考题”。

就在小O和小N聊的正开心的时候,Brockman选择加入,直接问有没有看到什么不正常的地方。结果是小N直接识破了Brockman的小伎俩,直接复述出了女人在他身后做小动作的场景,小O听了之后直接感叹原来在这里享受乐趣的不只有我们两个。Brockman把这句话当成了夸赞,并对小O表示了感谢,还愉快地加入了TA们的对话。之后是最后也是最精彩的部分,在Brockman的指挥下,小O和小N根据刚才聊天的内容,直接开启了对唱模式。只过了简单几轮,衔接地就十分密切,而且旋律悠扬,音色也是和真人毫无二致。
最后视频以Brockman唱出的一句Thank you结束,在视频外的推文中他还透露新的语音对话功能将在数周内向Plus用户开放。

ebcac93a-1251-11ef-9118-92fbcf53809c.png


端到端训练,一个神经网络搞定语音文本图像

正如奥特曼在发布会前所说,GPT-4o让人感觉像魔法一样,那么它是如何做到的呢?非常抱歉,这次非但没有论文,连技术报告也不发了,只在官网Blog里有一段简短的说明。在GPT-4o之前,ChatGPT语音模式由三个独立模型组成,语音转文本→GPT3.5/GPT-4→文本转语音。我们也可以让旧版ChatGPT语音模式自己讲一下具体是怎么个流程。ebe410c0-1251-11ef-9118-92fbcf53809c.jpg这样一来,整个系统的延迟足足有2.8秒(GPT-3.5)和5.4秒(GPT-4),而且丢失了大量的信息,它无法直接感受音调、多个说话者或背景噪音,也无法输出笑声、唱歌声,或表达情感。ebfabea6-1251-11ef-9118-92fbcf53809c.jpgGPT-4o则是跨文本、视觉和音频端到端训练的新模型,这意味着所有输入和输出都由同一个神经网络处理。在语音翻译任务上,强于OpenAI专门的语音模型Whisper-V3以及谷歌和Meta的语音模型。ec8d0a68-1251-11ef-9118-92fbcf53809c.png在视觉理解上,也再次反超Gemini 1.0 Ultra与对家Claude Opuseca698d4-1251-11ef-9118-92fbcf53809c.png

虽然技术方面这次透露的消息就这么多了,不过也有学者评价。

一个成功的演示相当于1000篇论文。

ecaabb4e-1251-11ef-9118-92fbcf53809c.png


One More Thing

除了OpenAI带来的精彩内容之外,也别忘了北京时间5月15日凌晨,谷歌将召开I/O大会。到时量子位将继续第一时间带来最新消息。另外根据网友推测,GPT-4o这么强,全都免费开放了,这是劝大家不续订ChatGPT Plus了的意思吗?那肯定不是啊~ecaef9f2-1251-11ef-9118-92fbcf53809c.png鉴于OpenAI春节期间在谷歌发布Gemini 1.5 Pro后半小时左右用Sora狙击了一把,明天OpenAI还有新活也说不定呢?直播回放

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41059

    浏览量

    302563
  • 人工智能
    +关注

    关注

    1820

    文章

    50314

    浏览量

    266868
  • GPT
    GPT
    +关注

    关注

    0

    文章

    371

    浏览量

    16959
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPT-5震撼发布:AI领域的重大飞跃

    电子发烧友网报道(文/李弯弯)2025年8月8日凌晨1点,OpenAI以一长达1小时的线上发布会正式推出GPT-5。这场被业界称为“AI进化分水岭”的发布,终结了长达两年的技术猜测,更以多维度性能
    的头像 发表于 08-09 07:44 1w次阅读
    <b class='flag-5'>GPT</b>-5震撼发布:<b class='flag-5'>AI</b>领域的重大飞跃

    堵车到崩溃?5分钟搞懂ETC“”通行背后的通信黑科技

    毫秒级交易、5.8GHzDSRC、双向加密认证——ETC如何让你纵享五一将至,你还把高速收费站当停车场吗?每逢五一、国庆等节假日,高速公路收费站往往成为巨大的“停车场”。人工收费车道上,车辆
    的头像 发表于 04-09 19:33 377次阅读
    堵车到崩溃?5分钟搞懂ETC“<b class='flag-5'>丝</b><b class='flag-5'>滑</b>”通行背后的通信黑科技

    论马斯克的预言:AI使人类边缘化

    呈指数级爆炸增长,在这种级别的AI面前,人类的智能总和将显得微不足道,从而导致人类被边缘化。 合理性 技术发展趋势角度:从当前技术发展来看,AI确实在不断进步,
    发表于 03-14 05:27

    AI功能(SC171开发套件V3)2026版

    AI功能(SC171开发套件V3)2026版 序列 课程名称 视频课程时长 视频课程链接 课件链接 工程源码 1 人体目标检测(Yolov5)案例----基于SC171开发套件V3 8
    发表于 01-15 11:18

    4G?血版AI小智产品方案 #小智AI #AI方案商 #4G通话 #AI终端产品

    AI
    不太正经的攻城狮
    发布于 :2025年12月21日 14:36:55

    AI赋能6G与卫星通信:开启智能天网新时代

    人类专家能专注于更复杂的问题。 预测性维护:让卫星\"长寿\"的秘密 卫星在轨运行寿命通常为10-15年,但设备故障往往是突然发生的。AI通过分析卫星运行数据(温度、功耗、信号
    发表于 10-11 16:01

    成都汇阳投资关于大模型白热化,应用加速分化

           大模型: 加速多模态研发 ,闭源模型逐步逆袭开源 多模态技术路线尚未收敛 , 国内外大模型厂商持续刷新 SOAT。 图片领域 ,GPT-4o 图像生成功能引发热潮后 ,谷歌
    的头像 发表于 09-09 09:30 1079次阅读

    【RA4M2-SENSOR】3、使用GPT定时器-PWM输出

    项目01_I2C_OLED复制一份,重命名为02_PWM 查看原理图得知,P102引脚可用GPT功能。 点击configuration.xml文件,按下面几张图所示内容配置。 打开引脚配置界面(Pin
    发表于 09-01 15:20

    基于改进模观测器的PMSM无位置传感器控制

    免费获取完整资料~~~ 内容有帮助可以关注、点赞、评论支持一下,谢谢! 【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字涉及作品版权问题,请第一时间告知,删除内容,谢谢!
    发表于 08-06 14:38

    当贝X5S Plus搭载MediaTek MT9669旗舰投影芯片

    当贝 X5S Plus 搭载的 MediaTek MT9669 旗舰投影芯片集成高效能、多核 CPU、GPU 及专用 AI 处理单元(APU),以强悍算力,保障你的流畅投影体验。
    的头像 发表于 07-17 17:58 2239次阅读

    物联网设备也能‘开口说话’?Aircall实时通话功能让智能交互触手可及

    “Aircall的最新技术成果——实时通话功能,为物联网设备赋予了‘语音生命’。无论是智能音箱、车载终端还是工业传感器,都能通过实时语音交互接收指令、反馈信息。这一变革让设备不再局限于
    的头像 发表于 07-07 09:26 898次阅读
    物联网设备也能‘开口说话’?Aircall<b class='flag-5'>实时</b><b class='flag-5'>通话</b><b class='flag-5'>功能</b>让智能交互触手可及

    具有增益调度切换增益的永磁同步电机模控制

    纯分享帖,需要者可点击附件免费获取完整资料~~~*附件:具有增益调度切换增益的永磁同步电机模控制.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字涉及
    发表于 06-05 11:25

    感应电机模变结构控制系统的半实物仿真

    结构控制的感应电机电流内环控制策略,在分析半实物仿真机理的基础上,搭建了模变结构控制系统的实时仿真模型,实现了系统硬件在环仿真,并分别对 控制和模变结构控制的电流控制效果进行了对比实验。结果表明,
    发表于 05-28 15:45

    InfiSight 智睿视界,拥抱 AI 做更落地的 ToB 生意

    过去一年, GPT-4、Sora 相继问世,国内大模型公司纷纷投身于追赶 OpenAI 的浪潮中。一个月前 GPT-4o 的亮相更是让人们见证了从科幻到科技的华丽转变,它强大的反应能力和几乎实时
    的头像 发表于 05-14 18:20 678次阅读

    INT-based Routing(基于遥测的智能路由)如何重构AI集群流量调度?

    GPT-4o参数规模突破10万亿、千卡集群成为AI训练标配的今天,全球互联网正经历着前所未有的流量风暴。当单次模型训练可产生相当于YouTube全球三日流量的数据洪流,当分布式推理系统要求微秒级延迟保障,传统网络架构的流量调度机制正面临系统性崩塌。路由技术如何破局
    的头像 发表于 05-12 17:06 1030次阅读
    INT-based Routing(基于遥测的智能路由)如何重构<b class='flag-5'>AI</b>集群流量调度?