把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架-电子发烧友网

作为本年度人工智能领域最重要的突破之一，大语言模型相关研究始终是各大相关领域的关注焦点。

近日，来自清华大学、中国科学院、MIT的科研人员对于大语言模型在人机交互领域中的应用进行了研究，设计了一种名为Co-Pilot的人机交互框架，使用提示引导ChatGPT（gpt3.5）在考虑人主观意图的同时完成简单的自动驾驶任务。

论文标题：

ChatGPT as Your Vehicle Co-Pilot: An Initial Attempt

论文链接：

https://www.researchgate.net/publication/374800815_ChatGPT_as_Your_Vehicle_Co-Pilot_An_Initial_Attempt

该研究作为最早一批使用原生语言大模型直接介入自动驾驶任务的尝试，揭示了大语言模型在自动驾驶领域进一步深入应用的可能性，也为后续相关研究指明了方向 [1]。

研究背景：为什么使用大语言模型？

人车交互作为智能汽车发展的重要功能之一，对降低司机驾驶负担、提升乘客出行体验有很大帮助，相关功能也成为了消费者在选择时的重要标准。尽管现有人机交互系统已经可以实现语音识别、指令执行等功能，但大多数情况下系统仅能根据既定指令的训练在有限范围内给出回答或响应，存在一定的局限性。相比之下，大语言模型在此类能力上具有更好的表现： 1. 可以理解人的意图：大语言模型具有推理能力，其可以从文字中理解说话者的真正意图，并给出相应的回应； 2. 拥有常识：得益于大量的训练数据中包含的知识，大预言模型具有一定的常识，并掌握许多特定领域的基础知识与能力； 3. 对于不同任务的高度适应性：通过调整提示词，大语言模型对于不同任务具有很好的适应性，可快速适配不同种类的任务，极大提升了应用与落地的效率。基于此，大语言模型为解决人机共驾问题提供了一种新的思路。为了探索大语言模型在自动驾驶人机交互领域的应用，研究人员提出了「Co-Pilot」架构，用于实现乘客、大语言模型以及车辆之间的交互。为了验证方案的可行性，研究人员设计了两个不同种类的任务对其进行测试，实验效果达到了预期。

Co-Pilot：架构与核心 Co-Pilot架构如下图所示：

Co-Pilot主体机构包含了以下模块：

1. 编码器：将必要的信息组成提示，通过专用API发送至大语言模型。

2. LLM：大语言模型，本工作使用ChatGPT（GPT3.5-turbo-0301）。

3. 解码器：将自然语言回应解析为指令或数据，用于车辆的交互与控制。

4. 保险机制：考虑到大语言模型作为概率模型的本质，现阶段难以杜绝其在回答中出错，故预留该保险机制防止存在明显错误的指令影响车辆运行。

5. 记忆机制：保存Co-Pilot完成任务所必须的数据及其他信息，作为输入的重要组成部分，可在工作过程中被实时更新。

Co-Pilot主要拥有两种工作流程：

1. 实现流程：Co-pilot依据不同任务完成一次工作周期的流程。

2. 调优流程：车辆专家依据不同任务调整记忆机制的前置优化流程。

记忆机制 本文按照人类认知心理学对大语言模型内部的知识储存进行模拟[2]，提出了记忆机制用来划分自动驾驶场景中可能涉及到的信息，旨在全面提升Co-Pilot信息利用效率。

专家主导的黑箱优化 该方法利用黑箱优化中在低维空间进行无梯度优化的思想，利用专家的主观标注来评估任务完成效果，从而更新记忆中的内容来增强提示词，使得LLM进行少样本学习。

仿真实验

为了验证Co-Pilot架构的可靠性，本文设计了两个任务，在以MATLAB/Simulink为基础的仿真平台中开展。 实验一：轨迹跟随控制器选择 在该实验中，假设有一辆自动控制的汽车在预设路径上行驶，研究人员给定Co-Pilot当前车辆状态、路段情况等信息，要求其选择最符合当前乘客意图（如保证速度、紧随轨迹、体验舒适）的运动控制器。运动控制器为已有预设模块，分别为NMPC控制器、Stanley + Preview控制器、PID控制器。

▲赛道总览

▲实验一的Co-Pilot具体结构

在调优环节中，研究人员分别对语义记忆与情景记忆进行了更新，其中语义记忆仅能提供对控制器的种类（A1）或定性描述（A2），而情景记忆可以提供对控制器在过去相似场景下的具体表现（A3）。赛道被分为五个区段，研究人员根据Co-Pilot是否在各区段选出了最符合当前乘客意图的控制器进行打分（每个区段最优1分，次优0.5分，最差0分，赛道总分最高为5分），分析不同记忆对于Co-Pilot表现的影响，研究人员在「精确跟踪」与「保持稳定」两种意图下分别测试，测试结果显示，A1仅取得3分，Co-Pilot在所有区段均选择了NMPC控制器。由于此时提供的信息有限，其只能根据训练中积攒的常识「NMPC的控制效果很好」做出判断。A2取得了7.5分，而A3取得了8.5分，证明情景记忆在相似任务中对Co-Pilot的推理最有帮助，使其可结合人类意图给出合理的反应。接着，研究人员使用了调优后的A3提示模式开展了更复杂的实验。在此实验中，五个区段的人类意图不再保持一致且引入了更口语化表达的新意图「刺激」。实验结果如下图所示，Co-Pilot在每个区段都能选出最符合乘客意图的控制器(由于控制器在切换时受到上一区段的车辆状态影响，导致被选控制器的效果与预期可能存在细微差异)。

实验二：双移线避障轨迹规划 在本实验中，研究人员将重点转移到规划类任务，向Co-Pilot描述当前路况，并要求其给出未来10s内的路径。

在调优环节中，研究人员更加侧重对于程序记忆的组织与优化，语义记忆与情景记忆中包含的信息基本不存在差异。在此的前提下，不同提示带来的显著结果差异更加值得深入探究。

▲四种提示的区别以及十次测试的平均得分情况（打分依据：合理性满分5分、完成度满分3分、正确性满分2分）

▲四种提示下的代表轨迹在使用B4提示的前提下，进一步引入不同种类的乘客意图，得到的代表性轨迹如下，可以看出在给出正确避让轨迹的基础上，Co-Pilot可以进一步调整轨迹使其符合乘客意图。

▲不同乘客意图的代表轨迹，均符合乘客意图

结果讨论 实验中我们可以注意到，提示中不同记忆的组合，对于LLM的表现有着显著影响。 1. LLM可根据常识以及记忆中包含的信息进行推理，在提供的信息不足以实现合理推断时，LLM可根据其训练中积累的经验做出决策； 3. 提示中的程序记忆在任务本身的描述上有时并不存在本质区别，但却对LLM的表现产生了很大影响。这些现象引出了后续可能值得研究的更多问题：类似交通等复杂场景应该如何高效描述以发挥LLM的优势？LLM内部实现推理/完成任务的机制究竟如何？这些问题与大模型乃至人工智能的可解释性、安全性等重要问题息息相关。

未来展望与挑战 Co-Pilot是一种创新的尝试，它将LLM应用于人机混合智能[3]。LLM大大提高了人机通信的效率，使人类和机器更好地理解彼此。人类专家对Co-Pilot进行调优的过程可以被视为系统的自适应学习。这使得深入的人机合作成为可能，并且在测试和调整人工智能系统方面具有巨大潜力。

▲LLM与现有平行学习架构[4]相结合，可进一步提升机器学习的效率

另一方面，正如本文实验中展示的，大语言模型通过海量数据训练得到的常识能在其工作中发挥重要作用。后续在此基础上，多模态混合大模型（如视觉+语言模态）能够进一步打通「感知-规划-执行」的流程，使得此类大模型可胜任自动驾驶、机器人等需要与现实世界交互的复杂任务[5]。当然，研究过程中涌现出的许多潜在挑战也值得关注：例如，怎样进一步提升LLM的性能？如何保证LLM表现得一致性、稳定性？在面对更复杂的动态场景时，如何保证LLM正确完成任务？

总结本工作提出了一种将大语言模型直接用于人机共驾任务的Co-Pilot架构，并设计对应实验初步证明了架构的可靠性以及大语言模型在自动驾驶类任务中的可适用性，讨论了相关领域研究的潜在机遇及挑战。该项工作已于近日发表于IEEE Transactions on Intelligent Vehicles，来自清华大学深圳国际研究生院的王诗漪以及来自清华大学自动化系的朱宇轩为本文共同第一作者，通讯作者为清华大学自动化系李力教授。其他合著者为清华大学李志恒副教授，中科院自动化研究所王雨桐助理研究员，以及麻省理工学院贺正冰高级研究员。

参考文献

[1] S. Wang, Y. Zhu, Z. Li, Y. Wang, L. Li, Zhengbing He, "ChatGPT as your vehicle Co-Pilot: An initial attempt," IEEE Transactions on Intelligent Vehicles, https://ieeexplore.ieee.org/document/10286969/[2] T. Sumers, S. Yao, K. Narasimhan, T. L. Griffiths, “Cognitive Architectures for Language Agents.” arXiv, Sep. 05, 2023. doi: 10.48550/arXiv.2309.02427.[3] L. Li, Y. Lin, Y. Wang, F.-Y. Wang, "Simulation driven AI: From artificial to actual and vice versa," IEEE Intelligent Systems, vol. 38, no. 1, pp. 3-8, 2023.[4] L. Li, Y.-L. Lin, N.-N. Zheng, F.-Y. Wang, "Parallel learning: A perspective and a framework," IEEE/CAA Journal of Automatica Sinica, vol. 4, no. 3, pp. 389-395, 2017.[5] D. Fu, X. Li, L. Wen, M. Dou, P. Cai, B. Shi, Y. Qiao, “Drive Like a Human: Rethinking Autonomous Driving with Large Language Models,” arXiv, Jul. 14, 2023,doi: 10.48550/arXiv.2307.07162.

原文标题：把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

物联网

物联网

+关注

关注
2869

文章
41622

浏览量
358380

原文标题：把ChatGPT塞进副驾驶！清华、中科院、MIT联合提出Co-Pilot人机交互框架

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

人机交互的三个阶段人机交互的常用方式

机交互经历的三个阶段：命令行界面交互阶段、图形用户界面交互阶段、自然和谐的人机交互阶段。

发表于 03-13 17:25 •803次阅读

人机交互技术有哪几种人机交互技术的发展趋势

人机交互技术是指人与计算机之间通过各种交互方式进行信息传递、操作和控制的技术。随着科技的进步，人机交互技术也在不断发展创新。以下将介绍人机交互技术的几种常见形式以及当前的发展趋势。一

发表于 01-22 17:47 •1102次阅读

情感语音识别技术在人机交互中的应用与展望

一、引言随着人工智能技术的不断发展，人机交互已经渗透到日常生活的方方面面。情感语音识别作为人机交互中的关键技术之一，能够通过分析人类语音中的情感信息实现更加智能化和个性化的人机交互。本文将探讨

发表于 11-22 10:40 •327次阅读

什么叫人机交互？人机交互是什么意思？

界面设计：设计人机交互界面的结构、布局、内容和控件，以实现直观、易用性、反馈等要求。界面设计需要兼顾美观性、实用性和易用性，简洁、明了的界面布局可以让用户快速定位需求和完成任务。

发表于 08-26 11:39 •2587次阅读

人机交互的发展历程

人机交互在20世纪60年代初期开始发展，当时计算机还处于高昂的价位，且操作系统的发展还非常有限。最早的人机交互界面是通过命令行交互实现的。当用户输入命令后，计算机会给出相应的响应。这样的交互

发表于 08-26 11:36 •2594次阅读

人机交互的多种可能 人机交互的三种方式

除了视觉界面，触觉界面也是一种重要的人机交互方式。触觉界面使用触摸技术，例如触摸屏、手势识别和数字板等，让用户可以与计算机进行更自然的交互。这种交互方式可以为用户提供更多的控制和个性化选项，使其有更高的效率和便利性。

发表于 08-26 11:34 •3705次阅读

人机交互设计原则是什么 人机交互常用的交互方式

人机交互设计原则是指为了提高用户体验和效果，指导设计师在设计用户界面和交互过程中应遵循的一系列原则。以下是一些常见的人机交互设计原则：　　1. 可用性（Usability）：设计应简单、直观易用

发表于 08-16 15:14 •2355次阅读

人机交互的重要接口是什么 人机交互方式有哪五种

　人机交互的重要接口是指人类用户与计算机系统之间进行交互和沟通的方式和工具。以下是几个常见的人机交互接口：　　1. 图形用户界面（GUI）：图形用户界面是通过图形、图像和图标等视觉元素来呈现信息

发表于 08-15 14:16 •6043次阅读

增强现实是人机交互技术吗

增强现实是人机交互技术吗增强现实是一种涵盖多种应用程序和技术的科技，可以改变我们的感知和与现实世界交互的方式。它是将虚拟世界的数字信息与真实世界融合在一起的技术。相比于传统虚拟现实技术，增强现实

发表于 08-12 15:27 •633次阅读

面部表情识别在人机交互中的应用

随着人工智能技术的不断发展，人机交互已经成为了人们生活中不可或缺的一部分。面部表情识别作为人机交互的重要组成部分，有着广泛的应用场景和价值。本文将探讨面部表情识别在人机交互中的应用，包括情感识别

发表于 08-02 18:03 •626次阅读

基于车载的人机交互界面设计分析

汽车人机交互界面在汽车设计中重要程度在逐渐增大，而且软件定义的界面、科技的进步、消费者需求的升级、互联网新势力造车崛起，都使得人机交互设计不断创新且迭代快速。

发表于 07-30 10:16 •795次阅读

人机交互的方式有哪些？

人机交互的方式有多种多样，以下列举出比较常见的方式

发表于 06-08 15:12 •5131次阅读

储能设备的人机交互模块需要符合什么要求？

储能设备的人机交互模块需要符合以下要求

发表于 06-01 10:27 •277次阅读

中科院发布“香山”与“傲来”两项开源处理器芯片

中科院计算技术研究所副所长包云岗介绍了目前全球性能最高的开源高性能RISC-V处理器核项目“香山”。他指出，计算技术研究所对标ARM Cortex-A72，已于2021年成功研制出第一代“香山

发表于 05-28 08:43

储能设备的人机交互模块需要符合什么要求？

储能设备的人机交互模块需要符合以下要求

发表于 05-24 09:26 •311次阅读