如何将自动驾驶大模型庞大的能力压缩到车端？-电子发烧友网

[首发于智驾最前沿微信公众号]在人工智能技术的发展进程中，大模型以惊人的泛化能力和逻辑推理水平，正改变着自动驾驶的技术路径。过去，自动驾驶系统主要依赖于人工规则和模块化设计，这种方式虽然在受控环境下表现稳定，但在面对复杂多变的城市道路场景和长尾场景时，就显得捉襟见肘。

随着深度学习技术的演进，基于Transformer架构的大规模神经网络开始在感知、预测与规划任务中占据主导地位，展现出处理复杂交互和理解驾驶环境的巨大潜力。

这些模型一般会在拥有数千颗高性能芯片的云端集群中训练，其参数规模动辄达到数十亿甚至上百亿。将这样庞大的数据塞进一台汽车显然不合理。

车载计算平台在提供算力的同时，还必须在有限的散热空间、动力电池功耗上限以及严苛的成本控制之间寻找平衡。车载环境对计算资源的限制是全方位的，这种限制不仅体现在运算能力上，更体现在显存带宽、存储空间以及实时响应的确定性要求中。

云端模型在推理时可以容忍数秒的延迟，但对于时速百公里的自动驾驶车辆而言，几毫秒的决策延迟就可能决定生死。此外，由于大模型在运行过程中会产生海量的数据吞吐，车端有限的显存带宽会成为系统运行的瓶颈，导致昂贵的计算核心因为“等数据”而处于空转状态。

因此，如何将云端大模型的庞大能力，通过科学的手段进行压缩、精简与适配，使其在资源受限的车端计算平台上依然能够保持精准的判断力，已成为当前智能汽车研发领域最核心的课题之一。

数值精度转换与量化技术的部署

在模型压缩的工具中，量化技术由于其带来的显著性能，成为了大模型“下车”的首选手段。量化技术的核心非常简单，就是用更低精度的数值格式来表示神经网络中的权重和激活值。

在云端训练阶段，为了保证梯度下降的平滑和计算的准确性，会使用32位浮点数（FP32）进行运算，这相当于为每一个参数提供了一个极其精细的刻度尺。而在实际的驾驶决策中，并不需要这种冗余的精度，就像在日常生活中测量身高不需要精确到微米一样。

通过将32位浮点数转化为8位整数（INT8）甚至是4位整数（INT4），模型的存储占用可以直接缩减到原来的四分之一甚至更少，同时计算吞吐量也能获得数倍的提升。

这种精度上的妥协并不是没有代价，数值表示范围的缩小不可避免地会引入舍入误差。这种误差如果在层层叠加后被放大，就会导致模型在识别微小障碍物或判断远端车距时出现严重的偏差。

图片源自：网络

对此可采用量化感知训练和后量化校准两种策略来应对这一挑战。

量化感知训练是在模型微调阶段就引入模拟量化的噪声，让模型提前适应“模糊”的参数表示，从而在训练过程中自主寻找抗干扰能力更强的权重配置。

而后量化校准则是在模型训练完成后，通过一小段高质量的典型驾驶数据，统计模型各层激活值的分布特征，动态地调整量化的缩放因子，使有限的数值刻度能够尽可能覆盖最有意义的信息区间。

特别是在处理Transformer架构中的注意力机制时，由于其数值分布存在极端离群值，如何保护这些关键的“少数”信息，决定了量化后模型是否依然具备强大的语义理解能力。

量化后的模型在硬件上的执行逻辑也会发生根本性变化。

像是英伟达的Orin或华为的昇腾系列的车载芯片，都内置了专门针对整数运算加速的张量核心。这些硬件单元能够在一个时钟周期内并行处理大量的低比特矩阵乘法，极大地降低了能效比。

量化不仅仅是为了减少计算量，它在缓解带宽压力方面同样功不可没。由于数据量减半或减至四分之一，显存到计算单元之间的数据搬运速度会变相提升，这对于受限于带宽的Transformer类模型而言，恰是性能提升的关键。

在一些前沿的部署实践中，开发者甚至会采用混合精度的策略，即在模型对精度高度敏感的头部和尾部层保留高位宽，而在中间计算冗余度较高的部分使用极低位宽，从而在保证感知精度的前提下，压榨出每一分硬件潜能。

神经网络剪枝与结构精简

如果说量化是改变数值的表达密度，那么剪枝技术则是在神经网络的拓扑结构上动手术，移除那些对最终决策贡献微乎其微的冗余连接。

深度学习模型在设计时其实存在严重的“过参数化”现象，这意味着网络中大量的神经元和连接实际上处于某种程度的冗余状态。

剪枝的过程就像是园艺师修剪盆栽，通过识别并切断那些不重要的分叉，让主干获得更多的养分。在自动驾驶的语境下，这意味着可以剔除那些在感知道路边界、识别行人等核心任务中不起作用的权重，从而显著降低模型的运算量和参数规模。

剪枝分为非结构化剪枝和结构化剪枝两种。

图片源自：网络

非结构化剪枝是在权重矩阵中随机地将数值较小的参数置零，虽然这种方式能极大程度地保持模型的预测准确性，但现代计算机体系结构更擅长处理整块的、连续的数据，非结构化剪枝产生的稀疏矩阵在通用的硬件平台上很难获得实质性的加速。

结构化剪枝以神经元、特征通道甚至整个层级为单位进行裁减。如通过分析视觉编码器中不同卷积核的重要性，可以直接关闭掉几十个对特征提取贡献较小的通道。虽然这种做法对精度的挑战更大，但它带来的硬件加速效果是立竿见影的，因为它直接减少了张量运算的维度。

在针对大模型的剪枝流程中，有些技术会采用一种迭代式的进化策略。

如先通过大规模的数据训练出一个性能顶尖的冗余模型，接着利用泰勒展开或其他重要性评估指标，识别出那些“闲置”的权重。系统会逐步裁撤这些部分，并在每一轮剪枝后进行短期的恢复训练，利用知识蒸馏等手段，让剩余的权重去承接被裁减部分的功能。

这种方式特别适用于具有重复结构的Transformer模型，通过减少多头注意力机制中的头数，或者缩减前馈网络的宽度，可以使模型在保持强大逻辑推理能力的同时，体积大幅缩减。

此外，针对自动驾驶这种多任务并行的场景，剪枝还可以实现在不同任务间共享特征层，避免重复的感知计算，进一步提升系统的整体运行效率。

知识蒸馏与多维框架下的能力迁移

除了在现有模型上做减法，知识蒸馏技术提供了一种从零开始构建高效“学生”模型的新途径。

知识蒸馏的核心是让一个小规模的轻量化模型去模仿一个庞大的教师模型的行为。在大模型的语境下，部署在云端的高参数模型拥有极其深邃的特征提取能力和应对复杂长尾场景的“直觉”。

知识蒸馏并不是简单地让学生模型去学习教师模型的最终输出结果，而是让它去模仿教师模型在中间层产生的概率分布和特征响应。这种被称为“软知识”的信息包含了教师模型对不同类别的关联性判断。

如它不仅告诉学生“这是一个行人”，还会告诉学生“这个物体在视觉特征上与骑行者有一定的相似度”，这种丰富的语义联系极大地加速了轻量化模型的学习过程。

图片源自：网络

在自动驾驶的端到端大模型部署中，知识蒸馏的应用已经深入到了逻辑推理层面。云端大模型可以作为一个强大的监管者，在训练过程中为车端的小模型提供高质量的引导信号。

如在处理复杂的十字路口场景时，教师模型可以通过注意力图谱告诉学生模型，哪些区域的动态障碍物是影响决策的关键因素。学生模型虽然参数量只有教师模型的几分之一，但由于它站在了巨人的肩膀上，能够专注于学习那些最关键的特征表达。

这种跨层级的能力迁移，使得几十层规模的模型能够展现出原本需要几百层才能达到的泛化水平，这对于在功耗受限的车载算力平台上实现高阶智驾功能至关重要。

此外，知识蒸馏在处理长尾数据时也表现出独特的优势。自动驾驶中的许多极端场景在训练集中出现的概率极低。单凭小模型自身很难从海量噪声中提取出这些微弱的信号，而大模型由于在预训练阶段接触过更为宽广的知识库，其预测结果中蕴含了对这些异常情况的识别能力。

通过蒸馏，这种能力被“固化”到了车端模型的权重中，从而显著提升了车辆在面对突发状况时的安全性。此外，这种技术还可以与模型剪枝结合使用，在剪枝后的精简结构中通过蒸馏快速找回丢失的性能，形成一种闭环的压缩优化体系。

软硬件协同优化与车载计算架构的适配

大模型能否在车端跑得稳、跑得快，除了取决于压缩算法，更取决于算法与底层硬件架构的配合默契程度。

传统的车载计算平台设计之初是为了应对卷积神经网络（CNN）的，其内存层次结构和计算单元的排列方式在处理大模型的Transformer算子时效率较低。Transformer模型中特有的多头注意力机制涉及到大量的矩阵转置和非连续内存访问，这在传统的总线架构下会造成严重的通讯阻塞。

为了解决这一痛点，诸如地平线的征程6系列的车载芯片，就专门引入了“纳什架构”，通过增加片上缓存、优化数据流动路径以及设计专用的Transformer加速引擎，实现了硬件级的效率跨越。

图片源自：网络

在这种软硬件协同的视角下，模型压缩不再是一个孤立的算法步骤，而是一个面向硬件特征的定制过程。

英伟达的TensorRT编译器可以针对特定的Orin平台，自动地将模型中的多个算子进行融合。原本需要分多次从显存读写的操作，在融合后可以一次性在寄存器中完成计算，这极大程度地降低了数据搬运的开销。

同时，编译器还会根据硬件的指令周期，动态调整量化后的位宽分布，确保计算资源被分配到最能产生增益的任务上。

此外，针对大模型参数量巨大的特点，车载系统开始采用统一内存架构（Unified Memory），让感知、预测和规控模块能够直接共享同一块显存区域，避免了昂贵的跨模块内存拷贝。

软硬件协同的另一个重要优势是实时性保障。

在大模型部署中，由于注意力机制的计算复杂度与输入序列长度的平方成正比，当传感器数量增加或视野范围扩大时，计算量会呈指数级增长。为了防止计算任务在高峰期“塞车”，车载操作系统会引入确定性的调度策略。

通过在硬件层面划分不同的优先级区域，确保那些涉及紧急刹车或避障的核心规控任务拥有绝对的计算首发权，而一些背景类的地图优化或非关键感知任务则在算力富余时运行。

这种精细化的资源管控，结合压缩后的轻量化模型，才真正构成了能够大规模量产的车载智能驾驶大脑。

安全性验证与压缩模型的长尾表现

在追求极致性能提升的同时，自动驾驶系统的安全性底线是不容逾越的。

模型压缩过程中的每一步操作，都必须经过严苛的安全性验证。如平均精度（mAP）这类传统的算法指标虽然能反映模型的整体水平，但在自动驾驶领域，更应关注模型在“最坏情况”下的表现。

一个压缩后的模型如果平时表现优秀，但在遇到强光直射或隧道出口突变光线时突然失效，那这种压缩就是失败的。

因此，在模型压缩的后期阶段，会引入一系列针对安全性的专门测试，如在仿真环境中的闭环测试，以及针对碰撞风险、轨迹平稳度等核心安全指标的鲁棒性评估。

图片源自：网络

为了确保压缩模型在复杂驾驶场景中的可靠性，还发展出了一套完整的“数据飞轮”验证体系。

在模型下车之前，可利用云端采集的海量高质量驾驶视频，针对每一个被压缩的版本进行“影子模式”下的回放测试。通过对比原始大模型与压缩后模型的决策差异，系统可以自动定位出那些因为压缩而导致识别能力退化的特定场景。

随后，针对性地补充相关场景的训练数据，对压缩后的模型进行局部的微调。这种“压缩-验证-补强”的循环过程，确保了模型即便是在由于量化或剪枝而丢失部分参数的情况下，依然能牢牢记住那些关乎生命安全的关键驾驶知识。

最后的话

将自动驾驶大模型的庞大能力压缩到适合车端部署的形态，不仅推动了车载计算技术的飞跃，也为实现真正无人干预的安全出行奠定了坚实的技术基础。在未来的道路上，更轻盈、更强大、更安全的自动驾驶模型，将成为自动驾驶落地的关键技术手段。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

自动驾驶

自动驾驶

+关注

关注
794

文章
14979

浏览量
181388
大模型

大模型

+关注

关注
2

文章
3752

浏览量
5268

搜索历史

如何将自动驾驶大模型庞大的能力压缩到车端？

评论