0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT重磅升级!新语音和图像输入功能,让ChatGPT能看、能听、能说

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-09-28 00:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)近日消息,OpenAI在一篇博客中表示,ChatGPT 将推出新的语音和图像功能。用户不仅可以在文本框中输入文字提示,还可以通过语音或图像与ChatGPT交流。OpenAI称,新功能在未来两周内向付费用户推出,不久后会推广到其他用户。

ChatGPT 是OpenAI推出的一种人工智能技术驱动的自然语言处理工具,它能够基于在预训练阶段所见的模式和统计规律,来生成回答,还能根据聊天的上下文进行互动,能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。自2022年11月30日发布以来,ChatGPT 已经进行了多次功能升级。

ChatGPT现在能看、能听、能说了

ChatGPT使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,做到与真正人类几乎无异的聊天场景进行交流。

2022年11月30日,ChatGPT刚面世就迅速在社交媒体上走红,短短5天,注册用户数超过100万。2023年一月末,ChatGPT的月活用户突破1亿,成为史上增长最快的消费者应用。

2023年2月2日,OpenAI发布ChatGPT试点订阅计划——ChatGPT Plus。ChatGPT Plus以每月20美元的价格提供,订阅者可获得比免费版本更稳定、更快的服务,及尝试新功能和优化的优先权。同日,微软发布公告称,旗下所有产品将全线整合ChatGPT。

2023年3月15日,OpenAI正式推出GPT-4。GPT-4是多模态大模型,即支持图像和文本输入以及文本输出,拥有强大的识图能力。GPT-4的特点在于:第一,它的训练数量更大;第二,支持多元的输出输入形式;第三,在专业领域的学习能力更强。

2023年5月18日,OpenAI官网宣布推出iOS版ChatGPT应用,该应用可免费使用,并在不同设备间同步用户的历史记录。该应用还集成了OpenAI开源语音识别系统Whisper,支持语音输入。ChatGPT Plus付费订阅用户可以独家使用GPT-4功能。

2023年7月,OpenAI宣布推出定制指令功能,以便客户更好地控制ChatGPT的回应方式。此外,OpenAI还发布公告称,给ChatGPT加了一个名为Custom instructions的新功能。2023年7月25日,OpenAI宣布,安卓版ChatGPT正式上线。

2023年9月25日,OpenAI发布《ChatGPT 现在能看、能听、能说了》的公告,宣布ChatGPT 增加语音输入和图像输入两项新功能。这可以说是ChatGPT 发布以来极其重大的更新。

据介绍,语音输入功能类似于手机上的语音助手,用户只需要轻轻点击一个按钮,说出自己的问题,ChatGPT能将这些口述的问题转换成文本,将其输入至大语言模型中,生成答案,接着将答案转化成语音,播放给用户。

语音转文本的任务由OpenAI 的 Whisper 模型提供支持。同时,该公司正在引入一款全新的文本转语音的模型,据称可以通过几秒钟的语音样本生成与人类相似的音频

图像输入功能类似于Google Lens,用户可以拍摄自己感兴趣的事物,并上传到ChatGPT中,ChatGPT会尝试识别用户想要询问的内容,并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题,或者配合语音或文本输入来进行交流。

用户可以向ChatGPT展示一张或多张图片,提问相关的问题。比如,发送一张坏掉的烧烤炉图片,然后询问无法启动原因;拍摄一张冰箱中的食材,询问多种菜品制作方案。

OpenAI还放出了一段视频,是和ChatGPT商量着修自行车,不断问ChatGPT:这里是扳手吗?是调整这里吗?甚至还把说明书拍照发给ChatGPT求解释。

这正是ChatGPT独特的特性所带来的帮助,用户可以与机器人进行互动,逐步完善答案,而无需首先进行搜索并在得到错误答案后再次搜索。

ChatGPT新增语音和图像功能带来的风险

OpenAI在博客中表示,其目标是构建安全有益的通用人工智能(AGI)。新增的语音和图像功能可能会带来一些风险,但是OpenAI正在采取措施缓解这些风险。

新的语音技术能够在短短几秒钟的真实语音片段中生成逼真的合成语音,这一技术存在潜在风险,比如,恶意行为者可能会滥用这项技术,冒充公众人物或实施欺诈。为了避免这些问题的发生,OpenAI决定将这项技术应用于特定的场景中,会受到严格的限制。

新的图像功能也带来一定风险,在进行更广泛的部署之前,OpenAI测试了该模型在极端主义和科学领域等方面潜在的风险,并对一些关键细节进行了调整,来确保负责任地应用这项技术。比如,在处理人物图片时,OpenAI限制了ChatGPT 对人物进行分析和直接评价的能力,这意味着上传一个人的照片就能知道那是谁无法实现,这是为了隐私安全。

ChatGPT自发布以来,在受到广大用户追捧的同时,其伴随的风险也让各界人士表示担忧。一是它可能在被使用的过程中造成数据信息的丢失;二是它也可能会被一些不法分子用来实施欺诈行为。在过去这大半年时间里,不少机构也在反对ChatGPT的使用和进一步研究。

2023年2月3日,IT行业的领导们担心,ChatGPT已经被黑客们用于策划网络攻击时使用。黑莓(Black Berry)的一份报告调查了英国500名IT行业决策者对ChatGPT这项革命性技术的看法,发现超过四分之三(76%)的人认为,外国已经在针对其他国家的网络战争中使用ChatGPT。近一半的人认为,2023年,将会出现有人恶意使用ChatGPT成功进行网络攻击。

2023年4月,中国支付清算协会倡议支付行业从业人员谨慎使用ChatGPT。4月13日,西班牙国家数据保护局和法国国家信息自由委员会分别宣布对ChatGPT展开调查。

在各界人士对ChatGPT存在风险的质疑声中,OpenAI也一直在寻找解决办法,如何让其在增加新功能的同时而不会带来新的问题。从这次的功能升级来看,OpenAI试图通过有意限制新模型的功能,来达到更进一步提升功能和同时带来新问题的平衡。OpenAI表示,将不断改进和完善风险缓解措施,未来为大家提供更强大的系统。

总结

ChatGPT自出世以来就引起了广泛关注,过去近一年时间,OpenAI对其底层模型和界面也进行了多次升级。如今,ChatGPT更是进行了一次重磅升级,新增语音输入和图像输入功能,让ChatGPT实现了能看、能听、能说的能力。

与此同时,ChatGPT在使用中存在的风险一直以来也是各界担心的问题,此次增加的新功能更是可能带来新的风险。不过在过去这段时间,OpenAI也一直致力于寻找解决办法,就比如在这次功能升级中,OpenAI通过一些限制来在实现新功能的同时也避免可能带来新风险。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10095
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新语音交互体验:A-59P 升级版 AI 降噪语音处理模组重磅来袭

    语音处理
    芯慧创科技崇仁县有限公司
    发布于 :2025年11月03日 10:11:11

    ChatGPT 智能体发布的观点解析及对科义相关系统的现实意义

    人工智能技术在多能力融合与复杂任务处理上实现了重大突破。ChatGPT 智能体并非简单地将各项功能进行堆砌,而是实现了 Operator 智能体网页交互能力、“深入研究” 功能的互联网信息搜集能力以及自身对话能力的有机统一。这种
    的头像 发表于 07-18 16:31 9493次阅读

    树莓派遇上ChatGPT,魔法热线就此诞生!

    尽管这种电话在几十年前就已过时,但许多人都对旋转拨号电话记忆犹新。这些旧电话,其实可以被改造成一个ChatGPT热线。这个由PolluxLabs开发的项目,你可以将一部复古的旋转拨号电话连接到树莓
    的头像 发表于 04-13 09:04 1.2w次阅读
    树莓派遇上<b class='flag-5'>ChatGPT</b>,魔法热线就此诞生!

    和安信可Ai-M61模组对话?手搓一个ChatGPT 语音助手 #人工智能 #

    ChatGPT
    jf_31745078
    发布于 :2025年03月12日 15:56:59

    能和Ai-M61模组对话了?手搓一个ChatGPT 语音助手

    起猛了, 安信可的Ai-M61模组能说话了! 超低延迟实时秒回 ,对话超丝滑的那种,先来看一段VCR: 小安派+ChatGPT语音实测:对话丝滑到忘记对面是AI_ 人工智能的应用日益广泛。 各家模型
    的头像 发表于 03-12 11:57 1w次阅读
    能和Ai-M61模组对话了?手搓一个<b class='flag-5'>ChatGPT</b> <b class='flag-5'>语音</b>助手

    OpenAI调整策略:ChatGPT审查或放宽

    近日,OpenAI宣布了一项新政策,旨在改变其训练人工智能模型的方式,以明确支持“知识自由”,无论话题多么具有挑战性或争议性。这一举措预示着ChatGPT未来将能够回答更多问题,提供更多视角,并减少
    的头像 发表于 02-18 15:10 3927次阅读

    OpenAI尝试减少对ChatGPT的审查

    ,这一政策的实施将使得ChatGPT能够回答更多的问题,提供更多的视角。在过去,由于审查机制的存在,ChatGPT对于一些敏感或争议性话题往往保持沉默,不愿过多涉及。然而,随着新政策的推行,ChatGPT将逐渐减少对这类话题的回
    的头像 发表于 02-17 14:42 3661次阅读

    ChatGPT Plus 2025新功能抢先看:如何订阅与使用全攻略

    的交互 ChatGPT Plus作为付费订阅服务,提供了一系列增强功能和优势,用户体验更上一层楼: 更强模型驱动 (GPT-4及更高版本):  订阅用户可访问性能更强、回答更准确、对话能力更复杂的模型(如GPT-4),处理复杂
    的头像 发表于 02-13 19:59 2071次阅读

    OpenAI免费开放ChatGPT搜索功能

    近日,OpenAI宣布了一项重大决策:向所有用户免费开放ChatGPT搜索功能。这一举措无疑将为用户带来更加高效、智能的搜索体验。 与谷歌等传统搜索引擎的收录模式相比,ChatGPT搜索展现出了独特
    的头像 发表于 02-06 14:35 827次阅读

    OpenAI为ChatGPT推出测试版任务管理工具

    近日,OpenAI宣布了一项针对其旗下人工智能聊天机器人ChatGPT的新功能——“任务”测试版。这一功能旨在为用户提供一个便捷的任务管理工具,类似于苹果Siri和亚马逊Alexa所扮演的角色。 据
    的头像 发表于 01-17 10:02 872次阅读

    OpenAI更新macOS ChatGPT应用,推出“代理”功能实现无缝集成

    OpenAI近日宣布,针对macOS平台的ChatGPT应用程序迎来重大更新,此次更新引入了与多种笔记和编码应用程序的无缝集成功能,极大地提升了用户体验和工作效率。 此次更新的核心亮点在于“代理
    的头像 发表于 01-02 10:49 963次阅读

    OpenAI桌面版ChatGPT新增应用协作功能

    近日,OpenAI宣布了一项重要更新,为桌面版ChatGPT推出了“与应用协作”(Work With Apps)功能。这一新功能旨在支持原生应用程序的自动化协作,为用户带来更加高效和便捷
    的头像 发表于 12-23 10:52 942次阅读

    ChatGPT深度融入苹果Mac软件生态

    ,OpenAI推出了MacOS桌面应用程序,使得用户能够在Mac上更加便捷地查看和自动化他们的ChatGPT工作。这一桌面应用程序不仅具备出色的兼容性和稳定性,还提供了丰富的功能选项,满足了用户多样化的需求。 更重要的是,ChatGPT
    的头像 发表于 12-23 10:50 1023次阅读

    ChatGPT新增实时搜索与高级语音功能

    。OpenAI对搜索算法进行了深度优化,使得ChatGPT能够在用户提出问题后,迅速获取到分钟级别的最新信息,包括股票、新闻等。这一功能的加入,极大地满足了用户对即时数据的需求,使得ChatGPT在各类应用场景中更加得心应手。
    的头像 发表于 12-17 14:08 938次阅读

    OpenAI就ChatGPT宕机事件致歉

    近日,全球领先的AI研究机构OpenAI遭遇了一次重大的服务中断事件,其备受欢迎的聊天机器人ChatGPT在全球范围内出现了宕机现象。与此同时,Sora及相关的API服务也受到了波及,无法正常运作
    的头像 发表于 12-16 09:47 1119次阅读