0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天

深度学习自然语言处理 来源:微软亚洲研究院 2023-03-16 10:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近来,AI领域迎来各个领域的大突破,ChatGPT展现出强大的语言问答能力和推理能力,然而作为一个自然语言模型,它无法处理视觉信息。

与此同时,视觉基础模型如Visual Transformer或者Stable Diffusion等,则展现出强大的视觉理解和生成能力。

Visual Transformer将ChatGPT作为逻辑处理中心,集成若干视觉基础模型,从而达到如下效果:

视觉聊天系统Visual ChatGPT可以接收和发送文本和图像

提供复杂的视觉问答,或者视觉编辑指令,可以通过多步推理调用工具来解决复杂视觉任务

可以提供反馈,总结答案,主动询问模糊的指令等

这个工作开启了ChatGPT借助视觉基础模型作为工具,进行视觉任务处理的研究方向。

论文链接:

https://arxiv.org/abs/2303.04671

开源代码:

https://github.com/microsoft/visual-chatgpt

论文作者:

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

机构:微软亚洲研究院

模型效果

5f12d024-c378-11ed-bfe3-dac502259ad0.gif

5f706e46-c378-11ed-bfe3-dac502259ad0.png

工作流程

5fc0bab8-c378-11ed-bfe3-dac502259ad0.png

记对话,第i轮的回复,是通过若干次思考调用工具的结果来最终总结出来的。我们记第i轮对话中,第j次的工具调用中间答案记作,那么

其中,是全局原则,是各个视觉基础模型,是历史会话记忆,是这一轮的用户输入,是这轮对话里思考和的历史,是中间答案,是prompt manager,用于把上面各个功能转化成合理的文本prompt,从而可以交给ChatGPT进行处理。以下图为例进行讲解:

5fdc300e-c378-11ed-bfe3-dac502259ad0.png

对于用户输入,添加于全局原则prompt,工具描述prompt,历史会话prompt之后,送给ChatGPT进行逻辑推理(Use VFM?)得到推理结果(就是这一次得到的GPT文本输出)。经过正则匹配进行分析,如果工具调用结束,则直接提取总结输出作为最终回复,如果是需要继续调用工具,则将提取到的工具名称、工作参数,输入视觉基础模型,从而得到,置于思考历史中,进行下一轮推理。或者说喂给GPT的内容为:

第一次问答里,第一个API

第一次问答里,第二个API:

第一次问答里,第三个API:

第二次问答里,第一个API:

第二次问答里,第二个API:

得到GPT的输出后,正则匹配进行工具的判断和解析,最终决定流程。API调用历史在每次回答后清空,其中只有最后总结性的回复被记录进入对话历史

细节描述

60621eb2-c378-11ed-bfe3-dac502259ad0.png

: 系统原则的提示符,“Visual ChatGPT是一个可以处理广泛语言和视觉任务的助手,xxxxxx”。在这个prompt的部分,以下内容被强调:Visual ChatGPT的角色,可以访问且需要尽可能使用视觉基础模型,要对文件名称非常敏感不可以捏造,可以且必须遵循严格的Chain-of-Thought思考链的格式进行思考(不然正则匹配不出来是否使用函数和函数名称参数),可靠性等描述。

: 对每个视觉基础模型的描述,包含工具名称,使用方法,输入输出格式,实例

: 用户的输入会被改写,用来理解图片和强制GPT思考

:对输出的处理,链式的文件命名,"imaga/{Name}_{Operation}_{Prev_Name}_{Org_Name}.png",强制修改GPT内容,让GPT降低思考难度,在指代不清时二次询问用户等。

Case Study

论文分析了在各个模块,如果prompt manager设计不到位,会各自出现什么问题:

608d634c-c378-11ed-bfe3-dac502259ad0.png

在中,如果不强调对图片文件名的敏感,可能会发生指代错误。如果不强调思考链的格式严格,可能正则匹配匹不上。如果不强调可靠性,不要基于文本上下文脑补,可能会出现不读图片直接回答的情况。如果不强调可以链式使用工具,则可能出现一口吃个大胖子而不能一步一步思考的情况。

61a8537c-c378-11ed-bfe3-dac502259ad0.png

类似的,对于工具包的描述,也应该对名称、功能、输入输出格式进行严格的设计。其中,for example进行举例影响不大,只要前面描述足够清楚,GPT可以理解,可以删掉保存token长度。

61b316c2-c378-11ed-bfe3-dac502259ad0.png

对于用户输入和工具包输出的后处理,如图。比较神奇的是,右上角的举例里,用ChatGPT自己的口吻来说一些原则(从而让ChatGPT以为是它自己说的,然后顺着说),以及直接让ChatGPT说到"Thought: Do I need a tool"继续生成,能强制进入思考链,从而大幅度降低思考难度。左下角的举例里,对于链式的文件命名,问Visual ChatGPT能不能总结出来文件命名原则,基本总结正确,这说明此种命名方法,确实可以帮助Visual ChatGPT理解文件的内容和依赖关系,生成路径。

有意义的启发

开启了ChatGPT处理视觉任务的新大门

NLP --> Natural Language PhotoShop,自然语言文本描述下的图片创作编辑和问答

可以通过系统设计和工具包设计的Prompt,做到无监督的工具调用,类似于zero-shot的toolformer

ChatGPT本身对仿真场景的能力很强,也读过图片路径和函数关系,从而善于使用基础视觉模型

Prompt很重要,作为纯语言模型,前文说它是啥他就仿照啥,除了细致的要求,一定要多夸一夸他,是能力很强的处理模型,那它顺着说,能力才会真的强

Visual ChatGPT本身是一个语言模型,所谓的两方多轮对话只是一个Human: AI: 的多轮特殊形式前文的继续生产,所以,完全可以强行给前文AI: 让ai自己说一些东西出来,是它信了是它自己说的,这能够极大的降低生成难度。这在本篇论文里对几个场景的帮助很大。例如,用户输入图片后,改写为“Human: 上传了一张图片,描述为:{}。注意,这里的描述是帮助你理解图片的,你不能基于它幻想而不调用工具。如果你理解了,就恢复收到。AI:收到。”注意,这里AI回复的收到,并不是真的GPT的生成内容,而是我们强行写入进dialogue history memory的,而且可以发现,AI真的相信了。另外一个点是,在用户的输入后面,挨着的应该是GPT自己的思考内容,如果我们借它的口,自己说“推理信息仅自己可见,需要在最后总结的时候把重要信息复述给读者”,效果比在最前文的prompt里效果好很多,可能是因为距离的原因,也可能是AI自己说出来的原因。另外,可以直接给到"Thought: do i need a tool?"去让GPT继续生成,从而一定进入推理链,可以匹配到远处描述思维链格式的prompt内容,极大的降低思考难度。

外网评价

630d2c42-c378-11ed-bfe3-dac502259ad0.png

631bedd6-c378-11ed-bfe3-dac502259ad0.png

63234c70-c378-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107322
  • AI
    AI
    +关注

    关注

    89

    文章

    38085

    浏览量

    296331
  • ChatGPT
    +关注

    关注

    30

    文章

    1596

    浏览量

    10065

原文标题:微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    微软Visual Studio 2026 发布!AI 深度融合、性能提升

    “  微软发布 Visual Studio 2026 预览版,新版本以深度融合的 AI Copilot 为核心,结合全新的 Fluent Design 界面与显著的性能提升,旨在打造前所未有的智能
    的头像 发表于 09-16 11:17 1269次阅读
    <b class='flag-5'>微软</b><b class='flag-5'>Visual</b> Studio 2026 <b class='flag-5'>发布</b>!AI 深度融合、性能提升

    和安信可Ai-M61模组对话?手搓一个ChatGPT 语音助手 #人工智能 #

    ChatGPT
    jf_31745078
    发布于 :2025年03月12日 15:56:59

    能和Ai-M61模组对话了?手搓一个ChatGPT 语音助手

    起猛了, 安信可的Ai-M61模组能说话了! 超低延迟实时秒回 ,对话超的那种,先来看一段VCR: 小安派+ChatGPT语音实测:对话滑到忘记对面是AI_ 人工智能的应用日益广
    的头像 发表于 03-12 11:57 9951次阅读
    能和Ai-M61模组对话了?手搓一个<b class='flag-5'>ChatGPT</b> 语音助手

    海康威视发布视觉模型周界摄像机

    上周,我们发布视觉模型系列摄像机,其中有大模型加持的周界系列摄像机,误报率下降90%以上。
    的头像 发表于 03-11 18:12 1594次阅读

    OpenAI尝试减少对ChatGPT的审查

    近日,OpenAI宣布了一项新政策,旨在改变其训练人工智能模型的方式,以明确拥护“知识自由”的理念。OpenAI强调,无论一个话题多么具有挑战性或争议性,都应当被平等对待和呈现。 据OpenAI表示
    的头像 发表于 02-17 14:42 3616次阅读

    ChatGPT Plus 2025新功能抢先看:如何订阅与使用全攻略

    的交互 ChatGPT Plus作为付费订阅服务,提供了一系列增强功能和优势,让用户体验更上一层楼: 更强模型驱动 (GPT-4及更高版本):  订阅用户可访问性能更强、回答更准确、对话能力更复杂的模型(如GPT-4),处理复杂
    的头像 发表于 02-13 19:59 2027次阅读

    OpenAI免费开放ChatGPT搜索功能

    的优势。它能够以更快的速度抓取网络信息,实现分钟级别的内容解析。这对于股票、体育、财经等需要迅速获取最新新闻内容的行业来说,无疑是一个巨大的福音。用户能够第一时间掌握行业动态,做出更加明智的决策。 此外,ChatGPT搜索还借助了大模型
    的头像 发表于 02-06 14:35 807次阅读

    OpenAI更新macOS ChatGPT应用,推出“代理”功能实现无缝集成

    ”功能的推出。通过这一功能,ChatGPT能够作为用户的得力助手,在支持的第三方应用程序中读取屏幕信息,并根据上下文提供精准的帮助和建议。无论是编写代码、记录笔记还是处理文档,用户都能享受到ChatGPT带来的智能化辅助,实现
    的头像 发表于 01-02 10:49 937次阅读

    OpenAI桌面版ChatGPT新增应用协作功能

    的使用体验。 据悉,桌面版ChatGPT现已集成了多种编程和办公应用程序,如VS Code、Xcode、苹果Notes、Notion和Quip等。用户可以通过这些应用程序与ChatGPT进行无缝协作,实现自动化
    的头像 发表于 12-23 10:52 925次阅读

    ChatGPT深度融入苹果Mac软件生态

    ,OpenAI推出了MacOS桌面应用程序,使得用户能够在Mac上更加便捷地查看和自动化他们的ChatGPT工作。这一桌面应用程序不仅具备出色的兼容性和稳定性,还提供了丰富的功能选项,满足了用户多样化的需求。 更重要的是,ChatGPT与Mac上的各类应用程序
    的头像 发表于 12-23 10:50 1006次阅读

    ChatGPT新增实时搜索与高级语音功能

    在OpenAI的第八天技术分享直播中,ChatGPT的搜索功能迎来了重大更新。此次更新不仅丰富了ChatGPT的功能体系,更提升了其实用性和竞争力。 新增的实时搜索功能,是此次更新的亮点之一
    的头像 发表于 12-17 14:08 917次阅读

    OpenAI就ChatGPT宕机事件致歉

    近日,全球领先的AI研究机构OpenAI遭遇了一次重大的服务中断事件,其备受欢迎的聊天机器人ChatGPT在全球范围内出现了宕机现象。与此同时,Sora及相关的API服务也受到了波及,无法正常运作
    的头像 发表于 12-16 09:47 1090次阅读

    ChatGPT短暂“罢工”,云服务器还能用吗?

    日,备受欢迎的AI聊天机器人ChatGPT突然遭遇了一次短暂的服务中断,这让不少用户心生疑虑:云服务器,这个支撑起无数互联网应用的强大后盾,究竟还靠谱吗?
    的头像 发表于 12-12 11:45 595次阅读

    OpenAI发布满血版ChatGPT Pro

    科技巨头OpenAI近期宣布了一项重大更新,正式推出了其备受期待的“满血版”ChatGPT Pro。这一新版本基于全新的推理模型o1,旨在为用户提供更为强大的处理能力和更高质量的回答。 据了解
    的头像 发表于 12-06 11:10 1101次阅读

    ChatGPT日均消息量破10亿,周活跃用户超3亿

    近日,OpenAI公司首席执行官山姆・阿尔特曼(Sam Altman)宣布了一个令人振奋的消息:ChatGPT聊天机器人的日均消息发送量已经突破了10亿条大关,同时其周活跃用户数量也超过了3亿
    的头像 发表于 12-05 11:19 1571次阅读