0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT重磅升级!新语音和图像输入功能,让ChatGPT能看、能听、能说

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-09-28 00:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)近日消息,OpenAI在一篇博客中表示,ChatGPT 将推出新的语音和图像功能。用户不仅可以在文本框中输入文字提示,还可以通过语音或图像与ChatGPT交流。OpenAI称,新功能在未来两周内向付费用户推出,不久后会推广到其他用户。

ChatGPT 是OpenAI推出的一种人工智能技术驱动的自然语言处理工具,它能够基于在预训练阶段所见的模式和统计规律,来生成回答,还能根据聊天的上下文进行互动,能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。自2022年11月30日发布以来,ChatGPT 已经进行了多次功能升级。

ChatGPT现在能看、能听、能说了

ChatGPT使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,做到与真正人类几乎无异的聊天场景进行交流。

2022年11月30日,ChatGPT刚面世就迅速在社交媒体上走红,短短5天,注册用户数超过100万。2023年一月末,ChatGPT的月活用户突破1亿,成为史上增长最快的消费者应用。

2023年2月2日,OpenAI发布ChatGPT试点订阅计划——ChatGPT Plus。ChatGPT Plus以每月20美元的价格提供,订阅者可获得比免费版本更稳定、更快的服务,及尝试新功能和优化的优先权。同日,微软发布公告称,旗下所有产品将全线整合ChatGPT。

2023年3月15日,OpenAI正式推出GPT-4。GPT-4是多模态大模型,即支持图像和文本输入以及文本输出,拥有强大的识图能力。GPT-4的特点在于:第一,它的训练数量更大;第二,支持多元的输出输入形式;第三,在专业领域的学习能力更强。

2023年5月18日,OpenAI官网宣布推出iOS版ChatGPT应用,该应用可免费使用,并在不同设备间同步用户的历史记录。该应用还集成了OpenAI开源语音识别系统Whisper,支持语音输入。ChatGPT Plus付费订阅用户可以独家使用GPT-4功能。

2023年7月,OpenAI宣布推出定制指令功能,以便客户更好地控制ChatGPT的回应方式。此外,OpenAI还发布公告称,给ChatGPT加了一个名为Custom instructions的新功能。2023年7月25日,OpenAI宣布,安卓版ChatGPT正式上线。

2023年9月25日,OpenAI发布《ChatGPT 现在能看、能听、能说了》的公告,宣布ChatGPT 增加语音输入和图像输入两项新功能。这可以说是ChatGPT 发布以来极其重大的更新。

据介绍,语音输入功能类似于手机上的语音助手,用户只需要轻轻点击一个按钮,说出自己的问题,ChatGPT能将这些口述的问题转换成文本,将其输入至大语言模型中,生成答案,接着将答案转化成语音,播放给用户。

语音转文本的任务由OpenAI 的 Whisper 模型提供支持。同时,该公司正在引入一款全新的文本转语音的模型,据称可以通过几秒钟的语音样本生成与人类相似的音频

图像输入功能类似于Google Lens,用户可以拍摄自己感兴趣的事物,并上传到ChatGPT中,ChatGPT会尝试识别用户想要询问的内容,并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题,或者配合语音或文本输入来进行交流。

用户可以向ChatGPT展示一张或多张图片,提问相关的问题。比如,发送一张坏掉的烧烤炉图片,然后询问无法启动原因;拍摄一张冰箱中的食材,询问多种菜品制作方案。

OpenAI还放出了一段视频,是和ChatGPT商量着修自行车,不断问ChatGPT:这里是扳手吗?是调整这里吗?甚至还把说明书拍照发给ChatGPT求解释。

这正是ChatGPT独特的特性所带来的帮助,用户可以与机器人进行互动,逐步完善答案,而无需首先进行搜索并在得到错误答案后再次搜索。

ChatGPT新增语音和图像功能带来的风险

OpenAI在博客中表示,其目标是构建安全有益的通用人工智能(AGI)。新增的语音和图像功能可能会带来一些风险,但是OpenAI正在采取措施缓解这些风险。

新的语音技术能够在短短几秒钟的真实语音片段中生成逼真的合成语音,这一技术存在潜在风险,比如,恶意行为者可能会滥用这项技术,冒充公众人物或实施欺诈。为了避免这些问题的发生,OpenAI决定将这项技术应用于特定的场景中,会受到严格的限制。

新的图像功能也带来一定风险,在进行更广泛的部署之前,OpenAI测试了该模型在极端主义和科学领域等方面潜在的风险,并对一些关键细节进行了调整,来确保负责任地应用这项技术。比如,在处理人物图片时,OpenAI限制了ChatGPT 对人物进行分析和直接评价的能力,这意味着上传一个人的照片就能知道那是谁无法实现,这是为了隐私安全。

ChatGPT自发布以来,在受到广大用户追捧的同时,其伴随的风险也让各界人士表示担忧。一是它可能在被使用的过程中造成数据信息的丢失;二是它也可能会被一些不法分子用来实施欺诈行为。在过去这大半年时间里,不少机构也在反对ChatGPT的使用和进一步研究。

2023年2月3日,IT行业的领导们担心,ChatGPT已经被黑客们用于策划网络攻击时使用。黑莓(Black Berry)的一份报告调查了英国500名IT行业决策者对ChatGPT这项革命性技术的看法,发现超过四分之三(76%)的人认为,外国已经在针对其他国家的网络战争中使用ChatGPT。近一半的人认为,2023年,将会出现有人恶意使用ChatGPT成功进行网络攻击。

2023年4月,中国支付清算协会倡议支付行业从业人员谨慎使用ChatGPT。4月13日,西班牙国家数据保护局和法国国家信息自由委员会分别宣布对ChatGPT展开调查。

在各界人士对ChatGPT存在风险的质疑声中,OpenAI也一直在寻找解决办法,如何让其在增加新功能的同时而不会带来新的问题。从这次的功能升级来看,OpenAI试图通过有意限制新模型的功能,来达到更进一步提升功能和同时带来新问题的平衡。OpenAI表示,将不断改进和完善风险缓解措施,未来为大家提供更强大的系统。

总结

ChatGPT自出世以来就引起了广泛关注,过去近一年时间,OpenAI对其底层模型和界面也进行了多次升级。如今,ChatGPT更是进行了一次重磅升级,新增语音输入和图像输入功能,让ChatGPT实现了能看、能听、能说的能力。

与此同时,ChatGPT在使用中存在的风险一直以来也是各界担心的问题,此次增加的新功能更是可能带来新的风险。不过在过去这段时间,OpenAI也一直致力于寻找解决办法,就比如在这次功能升级中,OpenAI通过一些限制来在实现新功能的同时也避免可能带来新风险。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ChatGPT
    +关注

    关注

    31

    文章

    1600

    浏览量

    10395
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    告别手忙脚乱!蜀瑞创新语音一键顺控,一句话搞定开关柜

    语音一键顺控,不是简单加个语音功能,而是可视化 + 语音 + 五防 + 自动顺控的一体化升级 —— 让开关柜 “听得懂、做得准、看得见”,把
    的头像 发表于 04-24 09:16 275次阅读
    告别手忙脚乱!蜀瑞创<b class='flag-5'>新语音</b>一键顺控,一句话搞定开关柜

    OpenAI正式发布ChatGPT Images 2.0版本

    在人工智能技术迅猛发展的浪潮中,OpenAI始终是引领行业变革的先锋力量。近日,OpenAI正式发布ChatGPT Images 2.0版本,这一消息如同一颗重磅炸弹,在科技圈引发了强烈反响,在
    的头像 发表于 04-22 11:32 1485次阅读

    ChatGPT突然无法登录是什么情况?如何解决?

    直接影响工作效率。那么到底是怎么回事?又该如何解决? 一、ChatGPT突然无法登录有哪些原因? 根据 OpenAI 官方帮助文档以及实际经验,常见原因主要集中在以下几类: 1、账号或密码问题 密码输入错误 账号被锁定 多次登录失败触发安全限制 常见表现: 提示账号
    的头像 发表于 04-13 12:34 1736次阅读
    <b class='flag-5'>ChatGPT</b>突然无法登录是什么情况?如何解决?

    巨头竞逐AI医疗健康:OpenAI推出ChatGPT Health,蚂蚁阿福国内领跑

    健康已成为AI技术的高频应用场景。OpenAI在其一篇博客文章中透露,通过分析匿名化的ChatGPT对话数据,发现全球每周有超过2.3亿人在ChatGPT上咨询健康相关问题,医疗健康的需求极为旺盛。
    的头像 发表于 01-10 11:17 2558次阅读

    讯飞智文产品完成重磅升级

    2026年伊始,当智能体成为人人可用的数字生产力,讯飞智文完成重磅升级。全新打造的「智能演练」与「AI演示官」,首次实现“写、练、演”一体化的表达链路,重塑AI PPT全流程,每个观点都能被从容讲述、生动传递。
    的头像 发表于 01-08 16:41 1016次阅读

    WT2003H以语音提示+远程MCU更新语音为核心的解决方案,为电动车仪表的智能化升级提供了一条清晰的路径!

    小伙伴们,欢迎来到本期的唯创#WT语音芯片小课堂!今天我们要聊的这款产品,可能会很多电动车用户和车企朋友眼前一亮——WT2003H语音芯片,一个电动车仪表"
    的头像 发表于 12-24 12:03 632次阅读
    WT2003H以<b class='flag-5'>语音</b>提示+远程MCU更<b class='flag-5'>新语音</b>为核心的解决方案,为电动车仪表的智能化<b class='flag-5'>升级</b>提供了一条清晰的路径!

    上线!国产AI语音开发板,定制你的聊天伙伴助手

    伙伴们,之前我们将Ai-M61模组接入了ChatGPT,弄了语音AI,光API调用费就能吃掉半年奶茶钱!也有不少小伙伴在留言区表示“贵啊”(详情看这里:能和Ai-M61模组对话了?手搓一个
    的头像 发表于 11-20 11:53 1100次阅读
    上线!国产AI<b class='flag-5'>语音</b>开发板,定制你的聊天伙伴助手

    重磅升级!迅为iTOP-Hi3403开发板SDK全面升级至Linux 6.6内核

    重磅升级!迅为iTOP-Hi3403开发板SDK全面升级至Linux 6.6内核】
    的头像 发表于 11-18 13:34 1201次阅读
    <b class='flag-5'>重磅</b><b class='flag-5'>升级</b>!迅为iTOP-Hi3403开发板SDK全面<b class='flag-5'>升级</b>至Linux 6.6内核

    新语音交互体验:A-59P 升级版 AI 降噪语音处理模组重磅来袭

    语音处理
    芯慧创科技崇仁县有限公司
    发布于 :2025年11月03日 10:11:11

    RT-Thread BSP v1.10.0 重磅发布 | 开发环境全面升级

    RT-ThreadBSPv1.10.0带来三大重磅升级:多工具链支持、HPM5E00系列支持、独立导出功能先楫MCU开发更简单、更高效!核心亮点三大突破性
    的头像 发表于 08-29 12:21 1364次阅读
    RT-Thread BSP v1.10.0 <b class='flag-5'>重磅</b>发布 | 开发环境全面<b class='flag-5'>升级</b>

    七牛云发布灵矽 AI:600ms超低延迟,重塑智能硬件语音交互新范式

    8 月 15 日,七牛云正式发布灵矽 AI —为新一代智能硬件而生的语音交互新范式,智能硬件不仅会“说话”,更能听懂情绪、自然交流。这不仅是语音交互技术从“能用”到“好用”的
    的头像 发表于 08-15 15:33 986次阅读
    七牛云发布灵矽 AI:600ms超低延迟,重塑智能硬件<b class='flag-5'>语音</b>交互新范式

    WT2606B 驱屏语音芯片新增蓝牙功能功能集成一体化,产品升级自动化,语音交互无线化,场景应用普适化!

    WT2606B 驱屏语音芯片新增蓝牙功能功能集成一体化,产品升级自动化,语音交互无线化,场景应用普适化!
    的头像 发表于 08-14 12:05 741次阅读
    WT2606B 驱屏<b class='flag-5'>语音</b>芯片新增蓝牙<b class='flag-5'>功能</b>:<b class='flag-5'>功能</b>集成一体化,产品<b class='flag-5'>升级</b>自动化,<b class='flag-5'>语音</b>交互无线化,场景应用普适化!

    ChatGPT 智能体发布的观点解析及对科义相关系统的现实意义

    人工智能技术在多能力融合与复杂任务处理上实现了重大突破。ChatGPT 智能体并非简单地将各项功能进行堆砌,而是实现了 Operator 智能体网页交互能力、“深入研究” 功能的互联网信息搜集能力以及自身对话能力的有机统一。这种
    的头像 发表于 07-18 16:31 1.6w次阅读

    AI真会人格分裂!OpenAI最新发现,ChatGPT善恶开关已开启

    AI现在就像一个小朋友,很容易就学坏了!OpenAI刚刚发现,如果用错误的数据微调自家的模型的一个领域,ChatGPT就会把在这个领域学到的「恶」和「坏」泛化到其他领域。比如「刻意」用错误数据在汽车
    的头像 发表于 06-20 12:41 1.7w次阅读
    AI真会人格分裂!OpenAI最新发现,<b class='flag-5'>ChatGPT</b>善恶开关已开启

    树莓派与EthernetHat:用ChatGPT实现的MQTT智能家居项目!

    我们使用Pico、WIZnetW5100S和PicoBricks开发板开发了MQTTRGB灯,通过ChatGPT4.0生成和优化代码。项目所需组件硬件组件PicoBricks扩展板x1WIZnetW5100S-EVB-Picox1WIZnetW5500-EVB-PicoWIZnet以太网HATx1树莓派Picox1
    的头像 发表于 06-03 15:29 1.8w次阅读
    树莓派与EthernetHat:用<b class='flag-5'>ChatGPT</b>实现的MQTT智能家居项目!