0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

重磅!OpenAI在ChatGPT内推出语言和图像功能

深度学习自然语言处理 来源:阿尔法兔 2023-09-26 17:05 次阅读

AI 开始在 ChatGPT 中推出新的语音和图像功能。它们提供了一种新的、更直观的界面类型,允许用户进行语音对话或向 ChatGPT 展示正在谈论的内容。

语音和图像为用户在生活中使用 ChatGPT 提供了更多方式。旅行时,拍下地标性建筑的照片,然后就它的有趣之处进行实时对话。当您在家时,拍下冰箱和储藏室的照片,找出晚餐的菜谱(并提出后续问题,一步步了解菜谱)。晚饭后,帮孩子做一道数学题,拍下照片,圈出问题集,让孩子与您分享提示。

OpenAI将在未来两周内向 Plus 和企业用户推出 ChatGPT 中的语音和图像功能。语音功能将在 iOSAndroid 上推出(在设置中选择加入),图像功能将在所有平台上推出。

Rectangle Speak with ChatGPT and have it talk back

0b5ffe14-5c36-11ee-939d-92fbcf53809c.png

现在,用户可以使用语音与您的助手进行来回对话。在旅途中与它对话,为家人要求一个睡前故事,或者解决餐桌上的争论。

与 ChatGPT 对话,让它回话(Rectangle Speak with ChatGPT and have it talk back)

使用语音与助手进行多轮对话。

要开始使用语音,请前往手机应用上的设置 → 新功能,然后选择语音对话。然后,点击主屏幕右上角的耳机按钮,从五种不同的语音中选择自己喜欢的语音。

新的语音功能由一个新的文本到语音模型提供支持,能够仅通过文本和几秒钟的语音样本生成类似人类的音频。OpenAI与专业配音演员合作创作了每种语音。OpenAI还使用 Whisper(OpenAI的开源语音识别系统)将用户说的话转录成文本。

Listen to voice samples

选择文本

下面是示例:

Once in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled with her playful kitten, Milo, under the shade of an old oak tree.

“Milo,” Lila began, her voice soft and gentle, “you’re going to have a new playmate soon.”

Milo’s ears perked up, curious. “A new playmate?”

Lila purred, “Yes, a baby sister.”

Milo’s eyes widened with excitement. “A sister? Will she chase tails like I do?”

Lila chuckled. “Oh, she’ll have her own quirks. You’ll teach her, won’t you?”

Milo nodded eagerly, already dreaming of the adventures they’d share.

大意(从前,在一片宁静的树林里,有一只毛茸茸的母猫,名叫莱拉。在一个阳光明媚的日子里,她和顽皮的小猫米洛依偎在一棵老橡树的树荫下。

“米洛,”莱拉开始说话了,声音轻柔而温和,“你很快就会有一个新玩伴了。”

米洛的耳朵竖了起来,很好奇。“新玩伴?”

莱拉咕噜着说:“是的,一个小妹妹。”

米洛兴奋地睁大眼睛。“妹妹?她会像我一样追尾巴吗?”

莱拉笑着说。“哦,她会有自己的怪癖。你会教她的,对吗?”

米洛急切地点点头,已经开始憧憬他们将共同经历的冒险了。

Select voice

Juniper

Chat about images

0b7007f0-5c36-11ee-939d-92fbcf53809c.png

用户现在可以向 ChatGPT 展示一张或多张图片。可以解决烤架无法启动的问题,查看冰箱里的食物以计划用餐,或者分析复杂的图表以获取与工作相关的数据。要聚焦于图像的特定部分,您可以使用OpenAI移动应用程序中的绘图工具。

图像聊天(Chat about images)

向 ChatGPT 展示一张或多张图片。

要开始聊天,请点击照片按钮捕捉或选择图片。如果您使用的是 iOS 或 Android 系统,请先轻点加号按钮。您还可以讨论多张图片,或使用OpenAI的绘图工具来引导您的助手。

图像理解由多模态 GPT-3.5 和 GPT-4 支持。这些模型将语言推理能力应用于各种图像,如照片、截图以及包含文字和图像的文档。

OpenAI正在逐步部署图像和语音功能

OpenAI 的目标是构建安全、有益的 AGI。OpenAI相信,逐步提供工具,让OpenAi能够随着时间的推移不断改进和完善风险缓解措施,同时也让大家为未来更强大的系统做好准备。在涉及语音和视觉的高级模型中,这一策略变得更加重要。

语音

新的语音技术--只需几秒钟的真实语音就能制作出逼真的合成语音--为许多创造性和无障碍应用打开了大门。然而,这些功能也带来了新的风险,例如恶意行为者有可能冒充公众人物或实施欺诈。

这就是为什么OpenAi要将这项技术用于语音聊天这一特殊应用案例。语音聊天是由OpenAI直接合作的配音演员创建的。OpenAi还与其他公司开展了类似的合作。例如,Spotify 正在将这项技术的力量用于其语音翻译功能的试点,该功能可以帮助播客将播客翻译成其他语言,用播客自己的声音来讲述故事,从而扩大播客的影响力。

图像输入

基于视觉的模型也带来了新的挑战,从对人的幻觉到在高风险领域依赖模型对图像的解释,不一而足。在进行更广泛的部署之前,OpenA与极端主义和科学能力等领域的红队测试专家人以及不同的测试者一起对模型进行了测试。OpenAI的研究使OpenAi能够在一些关键细节上保持一致,以实现负责任AI的应用。

让视觉既实用又安全

与 ChatGPT 的其他功能一样,视觉功能也是为您的日常生活提供帮助。只有当它能看到用户所看到的东西时,才能发挥最大作用。

OpenA与盲人和低视力者的免费手机应用程序 Be My Eyes 合作,了解其用途和局限性,并从中直接借鉴了这一方法。用户告诉OpenAI,他们发现背景中恰好有人的图像进行一般性对话非常有价值,比如当你正在尝试遥控器设置时,电视上出现了一个人。

由于 ChatGPT 并不总是准确的,而且这些系统应尊重个人隐私,因此OpenA还采取了技术措施,大大限制 ChatGPT 分析和直接陈述人的能力。

真实世界的使用情况和反馈将帮助OpenAI在保持工具实用性的同时,使这些保障措施更加完善。

模型限制的透明度

用户可能会依赖 ChatGPT 来处理专业话题,例如研究领域。OpenAI对模型的局限性保持透明,不鼓励未经适当验证的高风险用例。此外,该模型精通英语文本的转录,但对其他一些语言,尤其是非罗马字母的语言,表现不佳。OpenAI建议非英语用户不要使用 ChatGPT。

用户可以在图像输入系统卡中阅读更多有关安全方法以及与 Be My Eyes 合作的信息

OpenAI将扩大访问范围

Plus 和 Enterprise 用户将在未来两周内体验语音和图像,很高兴不久后能向包括开发人员在内的其他用户群推出这些功能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2707

    浏览量

    47707
  • OpenAI
    +关注

    关注

    8

    文章

    763

    浏览量

    5918
  • ChatGPT
    +关注

    关注

    27

    文章

    1411

    浏览量

    4776

原文标题:重磅!OpenAI 在 ChatGPT 内推出语言和图像功能

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    科技大厂竞逐AIGC,中国的ChatGPT在哪?

    最近,AI(人工智能)圈一股以“ChatGPT”为核心的热潮从美国“硅谷”涌入中国。 2022年11月底,初创公司OpenAI发布了名为ChatGPT的对话式聊天机器人模型,一经推出
    发表于 03-03 14:28

    ChatGPT系统开发AI人功智能方案

    ChatGPT是一个由OpenAI开发的人工智能语言模型,可以实现自然语言处理、对话生成等功能。要开发一个类似
    发表于 05-18 10:16

    如何注册使用OpenAI ChatGPT

    文章目录 注册 购买 openai的官网 问题今天早上在sheep公众号里面看到了关于openai 旗下研发的chatgpt的产品,去到chatgpt的网页,我们可以看到他的标语。
    发表于 02-10 10:55 0次下载
    如何注册使用<b class='flag-5'>OpenAI</b> <b class='flag-5'>ChatGPT</b>

    chatGPTopenai的关系,chatGPT的劣势介绍

     人工智能研究公司OpenAI首席技术官米拉・穆拉蒂示,ChatGPT可能会“编造事实”,这与其他基于语言模型的人工智能工具没有什么区别一样。
    的头像 发表于 02-10 16:56 8585次阅读

    openaichatGPT什么关系

    上取决于ChatGPTOpenAI目前在其产品组合中的其他生成式AI技术(例如文本到图像生成器DALL-E 2)的价值到底有多大,以及OpenAI离实现其既定的通用人工智能(AGI)
    发表于 02-13 14:36 2298次阅读

    OpenAI官宣把ChatGPT API开放

        3月1号,OpenAIChatGPT API 正式开放;就在竞争对手越加追赶的时候,OpenAI宣布正式推出面向商业用户的ChatGPT
    的头像 发表于 03-06 18:48 2965次阅读
    <b class='flag-5'>OpenAI</b>官宣把<b class='flag-5'>ChatGPT</b> API开放

    ChatGPT升级 OpenAI史上最强大模型GPT-4发布

    ChatGPT升级 史上最强大模型GPT-4发布 OpenAI正式推出ChatGPT升级版本,号称史上最强大模型GPT-4发布。OpenAI
    的头像 发表于 03-15 18:15 2422次阅读

    微软将向美国政府客户提供OpenAI的GPT模型

    微软增加了对大型语言模型(llm)的支持。openai推出chatgpt后,llm的使用大幅增加,微软持有openai的股份,许多类型的公司
    的头像 发表于 06-08 10:35 799次阅读

    ChatGPT性能暴降!OpenAI重磅回应!

    目前对此,不少猜测和假想充斥在有关社区。有一些较为流行的观点:ChatGPT 明显的性能下降可能来自“模型的缩放痛苦”,即,降低 GPT-4 的推理能力似乎是平衡响应速度的一种可能的解决方法,对于 OpenAI 的开发人员来说,这是一个不难想到的解决方案。
    的头像 发表于 06-19 16:26 412次阅读
    <b class='flag-5'>ChatGPT</b>性能暴降!<b class='flag-5'>OpenAI</b><b class='flag-5'>重磅</b>回应!

    ChatGPT重磅升级!新语音和图像输入功能,让ChatGPT能看、能听、能说

    电子发烧友网报道(文/李弯弯)近日消息,OpenAI在一篇博客中表示,ChatGPT推出新的语音和图像功能。用户不仅可以在文本框中输入文
    的头像 发表于 09-28 00:14 2623次阅读

    ChatGPT Plus怎么支付 开通ChatGPT plus有什么功能

    ChatGPT Plus怎么支付?探索AI的未来——ChatGPT 4.0开通付费教程 在人工智能的世界里,OpenAIChatGPT 4.0就像一颗璀璨的星星✨,以其卓越的自然
    的头像 发表于 10-10 16:01 3341次阅读
    <b class='flag-5'>ChatGPT</b> Plus怎么支付 开通<b class='flag-5'>ChatGPT</b> plus有什么<b class='flag-5'>功能</b>?

    ChatGPT重磅更新 OpenAI发布GPT-4 Turbo模型价格大降2/3

    ChatGPT重磅更新 OpenAI发布GPT-4 Turbo模型价格大降2/3 目前OpenAI算是全球大模型的引领者,一举一动都牵动着大家的关注,现在
    的头像 发表于 11-07 18:20 2163次阅读
    <b class='flag-5'>ChatGPT</b><b class='flag-5'>重磅</b>更新 <b class='flag-5'>OpenAI</b>发布GPT-4 Turbo模型价格大降2/3

    OpenAI推出ChatGPT功能:朗读,支持37种语言,兼容GPT-4和GPT-3

    据悉,“朗读”功能支持37种语言,且能够自主识别文本类型并对应相应的发音。值得关注的是,该功能对GPT-4以及GPT-3.5版本的ChatGPT均适用。此举彰显了
    的头像 发表于 03-05 15:48 284次阅读

    OpenAI推出ChatGPT“朗读”功能

    OpenAI今日宣布,为其广受欢迎的ChatGPT平台新增了“朗读”功能,该功能允许用户将对话文本内容转化为语音,从而进行听读。无论是iOS还是安卓系统的用户,现在都可以轻松享受到这一
    的头像 发表于 03-06 18:17 821次阅读

    ChatGPT推出全新“朗读”功能

    近日,OpenAI为其备受瞩目的聊天机器人ChatGPT推出了全新的“朗读”功能,该功能以五种不同的声音朗读回复,并支持多达37种
    的头像 发表于 03-07 10:25 275次阅读