苏治中：静动态感知不足以完成自动驾驶-汽车氪

[本站行业] 5月16日，2023中国（亦庄）智能网联汽车科技周暨第十届国际智能网联汽车技术年会在京举行，大会主题涵盖了智能网联汽车战略引领、技术创新、生态赋能、商业化推进、跨界融合等多个版块，同时聚集了全球顶级专家、政策制定者、产业领袖、投资机构等多方人员的参与，旨在进一步促进智能网联汽车技术进步与商业化应用。

在“CICV2023运载装备智能感知技术与应用研讨会议”现场，地平线智能驾驶算法研发负责人苏治中围绕“软件2.0时代的自动驾驶感知技术”发表了演讲。

以下内容为现场演讲实录：

我今天汇报的主题叫软件2.0时代的自动驾驶感知技术。我今天分享的内容主要有三部分，第一是软件2.0与智能汽车的行业趋势，第二部分是端云协同的自动驾驶感知技术，第三部分是自动驾驶端到端算法趋势。

首先是软件2.0与智能汽车的行业趋势。在2012年AlexNet出现之后，深度学习已经统治了计算视觉这个领域十多年，深度学习的出现使得过去由问题拆分的传统CV算法逐步过渡到了端到端由深度学习驱动的算法，深度学习驱动的算法最大的好处就是它能够通过计算和数据带来性能持续的提升，不像传统的CV算法可能需要很多专家手动设计一些特征去解决问题，存在低效的情况。

实际上现在软件2.0已经是一个大家非常熟知的概念，它主要的idea，不通过问题拆分，也不通过专家经验、人工逻辑设计，而是完全通过数据和计算驱动的模式，来去解决问题。在过去一段时间，可能从2012年到2019、2020年之前，大家关注到更多还是在NLP领域或者计算机视觉领域，深度学习所扮演的重要角色，近来随着GPT等模型的出现，我们关注到深度学习能够更加以端到端形式，去实现通用的人工智能。正是这几年算法的发展，推动了汽车的智能化。过去的汽车，大家更多理解为是一个车轮子上的沙发，带着大家安全舒适从另一个地方到达另一个地方。现在大家对智能汽车的认识发生了非常大的变化，我们更多地把它看作是一个智能出行的助理，它是一个车轮子上的智能器人，因此我们认为智能汽车是一个堪比计算机诞生颠覆性的创新，是因为我们认为智能汽车会是自主机器人的第一个形态。随着它不断的进化，智能汽车能够在大街上实现高级别自动驾驶，其实背后所驱动的技术和基础设施的发展会带来自主机器人快速的发展和落地。有非常多的专家和行业伙伴有这样的认识，包括前一段时间，陆奇博士也提到过智能汽车正在成为人类科技发展史最大的母生态。

在自动驾驶领域，我们观察到了数据驱动的算法正在逐步替代规则实现的算法，虽然我们今天讲的是感知，但实际上数据驱动的算法，也就是深度学习正在替代包括融合、规划和控制所有自动驾驶的模块。自动驾驶对于深度学习性能的要求和大模型的发展，其实驱动了算力持续的提升，通常在端上使用的模型容量可能并不会特别大，现在的自动驾驶系统更多是端云协同的系统，其实在云端它往往会需求更大的计算量。

算力的需求也驱动了我们需要有新的计算架构，在过去大家更加会聚焦于CPU或者GPU，但其实智能驾驶需要更专用的、并且更高效的计算架构，不管是在功耗上还是性能上，这是地平线成立的初衷，也是我们始终不断坚持探索的方向。前不久在上海国际车展，地平线刚刚发布了最新一代智能驾驶加速引擎，我们称之为纳什架构。纳什架构将会在地平线下一代芯片上率先应用，会在很快的未来达到落地量产，它不仅提供了更大的算力，也提供了更高的灵活性，同时也能够更好地支持像Transformer这样更先进、更具备趋势性的模型，这里也列出了纳什架构的8个很重要的核心技术突破点，在这里就不为大家做详细的介绍。

接下来我来为大家分享我们的一些实践，首先现在大家也普遍认识到，自动驾驶不仅仅是一个端上的系统，它更多是一个端云协同的系统，我们要在端上去执行我们的模型，执行我们的系统，去做实时的感知、建模、定位、规控等等，但同样在云端我们也需要一套完整的系统去获取数据，去生成真值，去做仿真，为端上的系统提供训练和仿真评测的环境。

第一部分为大家分享端上的部分，首先这里是我们在征程5上BEV时空融合的架构，当前在自动驾驶感知领域，BEV是一个大家非常熟知也非常流行，每个团队都在大力去做的非常有优势的架构。地平线也研发了自己的BEV时空融合架构，它也会在今年在国内一个非常主要车企的主要车型上完成量产。这是我们完整的架构，我们针对不同的合作伙伴、车型或客户也会有一定的定制化或者是裁减，并不是每个车型都是11个摄像头和Lidar，可能会有7个摄像头、Lidar等等不同的配置.这套架构能够实现神经网络源生的输出，360感知的全要素，并且能够去通过模型完成感知融合、建模和轨迹预测，也正是通过这样的端上实时的感知和建图，我们能够不依赖高精地图，或者降低对于地图的依赖，而达成城区自动驾驶功能，同时在复杂路况下也有很好的处理能力。

下面的框图展示了我们的一个模型结构的框图，在camera或者Lidar信号进来之后我们会先做特征提取，之后经过视角变换和空间融合，再结合多帧的时序融合，再经过第二阶段的特征结合refinement，最后是到达这个模型Head输出的部分，大家可以看到这套框架同时能够完成空间、时间以及多个模态，就是Lidar和camera的融合。在这样一个框架里，BEV特征融合的算法至关重要，因此我们也自研了GKT BEV感知算法(Geometry-guided kernel BEV)，是一套基于Transformer的架构，因为我们大概可以认为当前BEV算法有三类，基于特征IPM视角转换，基于Transformer以及基于LSS三类算法，基于Transformer的方案它会有更好的性能和更强的泛化性，但它的缺点就是全局attention会带来比较大的算力和带宽的需求，我们通过Geometry-guided kernel的方式来降低对于全局attention的需要，大幅提升效率，同时Transformer的方法相比LSS对嵌入式平台是更友好的，这套方法在征程5上能够达到一个非常高的帧率。

像我刚才讲的整套架构是支持多模态特征融合，多模态的融合分为前融合、中融合和后融合，后融合就是目标级融合，跟咱们讲的软件2.0范式不符合，因为它涉及到非常多人工逻辑的计算。前融合我们通常认为是信号级的融合，camera跟Lidar点云的直接融合，这个方案由于是Lidar跟camera的帧率不同，扫描方式不同，非常难以做信号级的对齐，因此我们会采取这种中融合，就是特征级的融合，它分别是用camera提取BEV特征，Lidar提取特征，在特征级别去完成一个融合。

我们这一套BEV架构支持不同的传感器配置，同时支持在不同传感器配置下多尺度的输出和可拓展的应用，右边展示了我们在BEV大的Feature Map上面可以通过取LI的方式取出不同的范围达成不同的功能，比如小范围更多是支持泊车，而最长的大范围能够支持高速，因为高速上往往需要更远距离的感知，中短范围能够在城区更好的处理好路口。在BEV感知框架里面可以看到，感知中两个非常大的模块，分别就是静态和动态，静态就是实时的局部的地图的构建，我们称之为地图感知，地平线也自研了这样一套矢量化的地图感知方案，它前面也是基于一个BEV的特征融合的模块，可以采用GKT，也可以采用其他的，主要的部分是在Head部分，它是通过一个Transformer的结构去实时的输出instance level的地图要素，比如说车道线、人行道等等，避免了这些后处理和后处理中所涉及到对于CPU的需求，对于逻辑计算的需求，对于工程师手写代码的需要。

动态感知，我们是采用了一个端到端的范式，就是从检测到跟踪，再到预测，如果我们想要做预测的话是需要有静态的要素，因为车辆周围行驶轨迹其实跟车道线是密切相关的，因此这张图上展现了我们会通过一个多任务的模型，同时去输出Map静态感知，也会输出3D的动态目标检测，结合这两个Head我们会再去做动态目标的轨迹预测，也是通过这样一个端到端的范式，进一步的去增强了跟踪和预测的性能，同时也减少了我们对于后处理的依赖。

现在随着自动驾驶技术的发展，随着它落地的增加，我们逐步的发现仅仅达成静态和动态感知其实并不足以完成自动驾驶，很重要的原因就是场景中有很多一般障碍物，一般障碍物我们是很难用语义去穷尽的，比如说马路上有一个纸箱子，要定义纸箱的类别，这个是难以覆盖的，因此我们也需要通过一些几何的方式去理解这个场景的几何构造，同时覆盖一般障碍物的感知，因此3D Occupancy是一个非常好的解决范式，在之前的Tesla AI Day上大家也看到过Tesla 3D Occupancy算法方案，它是输出一个3D的占有，就是XYZ跟一个feature vector，它对于带宽和计算量的要求都是非常高的，因此我们在征程5上也是采用了BEV2D的Freespace+BEV elevation里完成3D Occupancy感知任务，因此在这个图中，我们也看到在BEV之后只有两个Head，一个是用来估计每一个BEV上面的高度，另外一个Head是用来估计每个BEV格子是否被占用。这一页展示了3D Occupancy当前的一个demo视频，可以看到它针对这些突出的路沿、花坛以及道路中间的隔离带都能有非常好的响应，而像这个花坛、隔离带如果我们用语义分割的手段解决的话，可能是很难穷尽这些场景的。

尽管说BEV是当下最为主流的一个感知的范式，但我们同时也在不断的探索稀疏实例目标检测的技术，原因也是BEV也存在一定的局限性，主要有几个方面，一个我们在做BEV的过程中需要对特征做一些压缩，再做稠密的视角转换，这个过程往往会带来分辨率的损失，而且稠密的视角转换其实会带来很大的带宽的损耗、带宽的占用。另外BEV它的感知范围是局限于BEV的Greatmap的，如果说我们构建一个非常大的Greatmap，它可能会占据很大的算力和带宽，而构建较小的Greatmap，又影响远距离感知，因此我们基于DETR的Transformer的范式去研发了稀疏实例动态目标，它不需要做dense view transformer，也不需要向传统的基于Transformer的BEV做很多全局的attention，同时它通过稀疏的范式,当前性能已经超过了所有Sparse目标检测方法和绝大部分BEV的方法，此外Sparse的范式也很容易可以应用到地图感知和静态和一般障碍物。

接下来是端云协同系统中云端的部分，我重点会讲跟感知相关的，尤其是4D标注的部分，我们在云端构建最重要的系统就是4D智能化的标注，它主要由四个大的模块和流程组成，分别是数据采集、4D的场景重建、大模型的预刷和人工质检和编辑，它能够把这个感知的输出空间从2D映射到3D，所以我们所有的标注也都是在3D之下去完成的。所谓4D就是结合了时序，4D标注第一步就是完成4D的重建，4D重建有两个大的环节，第一个部分是单帧的重建，这是基于比较经典的SLAM技术，基于camera和lidar多模态的重建。第二个部分是多趟的聚合，单趟很难扫描完整个场景，因此通过多趟的聚合，能够把这个场景达成一个更好的完整的感知，这是上面的通路，就是针对静态和静态环境。不需要关注动态目标，底下主要是基于Lidar跟camera同时去检测和感知场景中的动态目标，通过云端大模型得到高精度感知的结果，这两个融合之后就得到了4D场景中的完整信息，这动态和静态所具有的完整信息在经过模型预刷和标注之后，就能够给所有的BEV的任务提供一个监督信息。

除了动态和静态，就像我们刚刚讲到非常重要的就是Occupancy占用栅格，主要是为了解决场景中一般的障碍物，因此我们构建了多模态的一般障碍物的帧值生成的方案，它能够把路面非常小的凸起形成一个很好的建模，去供3D Occupancy模型做一个学习，之后再供给自动驾驶系统去应用。当然多模态的技术尽管能够达到很高的精度，但它的局限性是需要车上有雷达，但我们大部分的量产车上是不会安装雷达的，因此纯视觉的点云重建，纯视觉的4D场景重建对我们来说都是非常重要的，这个决定了未来数据能不能更大规模的上量，更大规模的去完成一个标注和对模型的监督，当前我们已经是能够通过纯视觉的重建达到接近多模态视觉得效果，暂时还没有在量产中去应用.除了纯视觉点云，现在NeRF也是大家广为关注的算法，相比点云它能够给场景提供更稠密的重建，并且可以去实时的恢复这些所有的视角，并且做视角的转换，同样是我们当前仍然在研发还没有在量产中使用的算法。当前4D智能标注已经支持了非常丰富的任务，像这里列出BEV的分割、3D的车位、静态全要素、3D目标检测等等。

下面我跟大家讲讲我们对于自动驾驶端到端算法趋势的看法，前面一直在讲软件2.0，实际上软件2.0驱动自动驾驶端到端已经是一个行业的共识，前面我给大家展示了我们在动态目标这一部分已经使用了检测跟踪到预测的端到端，但实际上这个还可以进一步往后去发展，去结合包括我们环境的认知，比如道路的拓扑逻辑关系的感知，以及到基于深度学习的Planner到Control，其实都是可以被端到端的训练去落地的。在去年已经诞生了非常多特别优秀的一些端到端的算法工作，可以看出大家对这个方面都在做很多的工作，并且去努力朝这个方向发展，之前我们看到特斯拉的FSD会在V12版本发布一个端到端的方案，地平线研发了基于Vector表达的一套端到端的自动驾驶算法，我们称作VAD，跟大部分的普通端到端算法不同，VAD是将场景表达为向量，而不是栅格，这种方式能够显著的提升inference的速度，并且在训练的阶段通过向量的方式来施加显示的监督约束，当前这套方法已经在nuScenes dataset 上取得了端到端到planning的指标。

现在ChatGPT、GPT4都非常火，我们认为GPT4对于自动驾驶端到端也有非常大的启示，这里展示了inference GPT讲的三步instruction GPT训练范式，第一步是文本的自监督预训练，第二步是通过人工智能撰写的问答对去做监督学习，最后一部分是human feedback的强化学习，基于这样一个启示，我们也认为端到端自动驾驶的训练范式会非常类似于GPT的训练范式，首先也需要多模态自监督的预训练，这个跟文本不一样，它需要Lidar、camera、包括自监督在内的文本训练。之后我们需要这些子模块的监督训练，还是需要一部分数据，有标注做一些监督。第三个imitation learning它是学人怎么做，最后一部分我们也是通过RL来对齐它跟人的价值观，并且去做好一些兜底。

以上是我们对于端到端的一些思考，最后是我们简要一些成果的展示，首先是我们城区的复杂场景自动驾驶展示，总的来讲基于征程5 城区NOA的方案，能够在这些复杂拓扑无保护左转、无保护右转、拥堵的博弈汇出等等复杂场景上达到一个纯视觉城区非常好的性能，同时我们也在多次自动驾驶学术竞赛中取得优异的成绩，当前地平线的征程系列芯片已经在50款车型上量产上市达到300万片芯片的出货，已经定点车型是超过120款，去年我们在L2+标配市场达到了市场份额的第一。

欢迎转载，请注明来源：汽车氪 » 苏治中：静动态感知不足以完成自动驾驶

苏治中：静动态感知不足以完成自动驾驶

相关推荐