info
行业动态
MORE...
PTC
应用案例
MORE...
技术前沿
MORE...
当前位置: 首页 智能驾驶 正文
大疆车载:如何实现“无高精地图”的高阶智能驾驶
转载 :  zaoche168.com   2024年04月22日

感知能力被看作是实现智能驾驶功能的基础能力。为让感知能力不断获得增强,甚至实现全局视野的“无所不知”,较为常见的做法无外乎以下几种:

搭配价格高昂的异构传感器组合套件,譬如单个或多个激光雷达,增加整车的感知冗余;

使用和优化最先进的融合感知算法和神经网络深度学习范式,譬如时下火热的BEV+Transformer风潮;

借助“外挂式的感知传感器”——譬如高精度地图辅助,获取全局超视距的环境感知信息。

但是,在智能驾驶逐渐向大众面普及的过程中,更需要考量一套系统,如何尽可能降低使用门槛,并且让其核心的功能价值,不因外部条件被限制发挥。光依靠异构多感知传感器的堆叠,推高了参数的同时也增加了成本;而去年以来始终被讨论的“重感知,轻地图”路线,也让曾经一度受宠的高精地图,陷入了相对尴尬的处境。

当智能驾驶竞赛的参与者们纷纷携着“无图”方案,要从高速城快进入复杂的城区场景时,感知能力的提升和场景泛化能力的拓展,已经成了必须要面对和解答的课题——这亟需要在成本、可靠性和效率的三角关系中,必须找到一个合乎完美的平衡点。在已经量产上车的「成行平台」上(更多信息可参阅:「成行平台」能力升级,智能驾驶常开常新),一直以来以技术立本的大疆车载,用在线局部“高精度地图”技术给出答案。

在智能驾驶中,通常会使用到三种不同类型的全局性地图:即导航地图(SD Map)、高精地图(HD Map),以及介于二者之间的ADAS地图。

导航地图:包含全局路网、道路拓扑语义信息,以及道路背景等,目前主要用于车辆导航;

ADAS地图:在导航地图所展示基础上增加了车道坡度、曲率、航向以及简单车道等相对位置的信息,但没有绝对位置信息,是目前一些L2级别的智能驾驶功能可用地图;

高精度地图:相对于导航地图和ADAS地图一种精度更高的的电子地图,几乎涵盖了道路上所有的信息,能够提供超视距环境感知能力,以及提供车道级别最优路径规划:

车道模型:自动驾驶系统描述车道间拓扑关系,包括车道基准线、车道连接点、车道交通类型、车道功能类型,像普通车道、行车道、超车道、辅助车道等类型;车道功能类型定义,比如有公交车道、HOV车道、潮汐车道等类型。

道路部件:包括路面标线类和道路设施,路面横纵向标线、标线类型,标线颜色、标线材质、清晰程度等。

道路属性:包含车道类型的属性和路侧呈现设备属性,包含车道数量、类型、坡度、曲率、航向、高程、侧倾等信息。

道路环境特征:比如交通信号灯、交通标志、地标性建筑等。

高精地图可显示最全面详细的道路信息特征

正因其道路信息的丰富及完整性,高精度地图在高阶智能驾驶中,能够实现更可靠的融合高精定位,从而成为车辆在行驶场景功能实现和体验上的“外挂感知传感器”。简单说,高精地图为智能驾驶提供了两项必不可少的感知能力:全局性的丰富道路语义信息,以及本车轨迹的高精定位——这才是它被赋予“拐杖”称号的真正价值所在。

问题来了:

既然高精地图之于智能驾驶如此重要,为什么却还要面临“四面楚歌”的境地?

这还得从高精度地图的采集和制作,以及后续运营维护说起。

高精地图的生成通常包含采集和制作等环节:在采集环节,由装备了高精组合惯导、相机、激光雷达的专业数据采集车,对需要建图的道路进行数据采集。车上所应用的传感器自身精度、不同传感器之间的时间同步和空间标定精度,均影响采集到的数据精度,对地图精度要求越高,一般也会要求成本更高的传感器。

在制作环节,将对所采集的传感器数据进行处理,获得传感器精确的全局位置和姿态,并将多次采集的数据进行融合,得到精确的三维点云、色彩信息。通过AI自动检测、以及人工的标注过程,获得地图中的丰富信息。

采集车和高精度传感器的成本、丰富的元素带来的处理计算和人工标注成本,使得高精地图的制作成本高。

除此以外,高精地图需要有较高的时效性,上述的地图采集制作过程需要多次重复进行,以保持地图的鲜度。在地图精度需求降低、众源数据处理方式成熟前,维护成本也将保持较高的水平。

由于高精地图本身的高精度特点,国家主管部门对其安全的相关考虑较多,对于全国城市的开放节奏有一定的限制。同时,地图制作完成后、发布给业界使用前,需要经过仔细的审查环节。因此,对于依赖高精地图的智能驾驶,其全面的推广应用需要配合监管的节奏。高精地图理想的时效性,要在实时审图、全国城市开放等政策、工具到位后才会有充分的发挥。

成本高企、工序繁复、鲜度受限,让高精地图也成为了智能驾驶进一步向外拓展普及的瓶颈。正是在这种现实情况下,高精地图才会逐渐在舆论声音中变成亟需被扔掉的“拐杖”。即便如此,高精度的道路语义信息之于智能驾驶,依然存在价值。那是否可能让车辆用自己的“眼睛”,实时看见和理解三维世界里的道路语义信息,并在线重构出来呢?

「成行平台」的感知能力,建立在以第二代惯导立体双目为主导的纯视觉算法基础上。如果要将原本厚重的高精地图变“轻”,「成行平台」可通过自身的强感知能力,对车辆可达空间内(即Free Space)的场景进行三维重建,进而实时生成在线局部“高精度地图”——即并无道路先验信息,全凭车辆自身“所见”的场景,为下游的决策、规划、控制提供输出结果参考。

这就会涉及到类似高精地图所提供的的两项外挂感知能力:环境感知预测能力局部位姿估计能力——即让车辆在智能驾驶中明确知道:我的周围有什么,以及我在哪里。

关于环境感知预测能力,不得不提及BEV(Brid's Eye View即鸟瞰图)融合算法,这是目前智能驾驶算法框架中较为流行算法范式。其主要原理是把不同传感器的数据,在特征提取阶段映射到以本车坐标系下,然后进行融合,通过深度学习技术感知车辆周围环境,将输出的环境感知结果直接提供给下游的决策规划环节使用。

在BEV算法被大范围应用之前,以车道线检测为例,传统算法模式下感知的处理流程是这样的:

1. 基于单个传感器输出进行检测;

2. 把1中检测的结果映射到3D空间;

3. 基于每个传感器检测车道线做关联;

4. 基于关联的结果然后基于上一时刻的结果做融合得到当前时刻最终结果。

但在这样的算法模式下,感知处理流程往往会面临下面几个挑战:

- 对于图像上的检测结果映射到3D空间,远处物体在图像检测上的微小误差,就会造成在3D空间上测距的较大误差;

- 在多传感器,多路输出情况下,检测车道线之间的关联也是一个比较大的困难,假如关联错误,最终输出会和真实世界偏差较大,所输出结果使得决策规划无法使用;

- 多相机输出结果关联以及时序融合上,需要较多基于规则的关联/融合策略,导致关联/融合策略较为复杂,代码量也会急剧增加,不易维护和迭代。

与之相比,BEV 算法能较好的解决上述几个问题,同时由于BEV 算法是采用深度学习神经网络进行特征融合,在架构上也会更加简洁:BEV 算法直接把所有传感器的输出结果输入到深度学习神经网络,再把神经网络抽取到的环境特征转换到本车坐标系下,然后通过深度学习神经网络直接输出本车坐标系下3D结果。

由于是把传感器输出的环境特征映射到本车坐标系,所以可以根据车辆的位姿,把前后时刻道路特征进行对齐。BEV 算法天然对时序特征融合较为友好,而且时序检测对于遮挡场景效果也会更加稳定,因此,在BEV 算法下通过对车辆不同时刻位姿的特征,转换到当前本车坐标系下,便可以进行结果预测:

可见,BEV感知算法不仅能预测出下游所需的丰富语义信息(如车道线、地面标识、道路边缘、车道中心线、导流带、道路分割等语义信息),还能预测出具有更高语义信息的拓扑信息(如车道分合流、路口拓扑等)。将这些道路语义信息,按照前后时序进行拼接融合,便可得到一张可达空间内的在线局部“高精度地图”,为车辆的智能驾驶提供实时的道路动静态高精度信息。

在线局部“高精地图”示意图

基于BEV感知算法的输出,「成行平台」能在不依赖高精地图情况下,在缺失、磨损的车道线道路上,顺利完成车道保持这样的基础行车辅助功能,也能在领航高速中完成上下匝道及领航城区时的路口左右转等高阶智能驾驶功能,这极大地脱离了功能使用需要高精地图覆盖的限制,拓展了智能驾驶的使用场景。

值得一提的是,通过极致模型及算子优化等技术,「成行平台」还把道路拓扑感知能力下放到低算力平台,这也是行业中首次在32TOPS级别的算力上,实现在线道路拓扑构建,也意味着行泊一体BEV感知算法能在较低算力平台进行部署,这为高阶智能驾驶功能在成本和应用上都降低了门槛,提供了其产品普及的可能性。

解决了可达空间内的环境感知预测问题,固然能够让车辆在没有“先验信息”的前提下,实时知道“我的周围有什么”,了解道路拓扑结构、环境特征、道路使用者等动静态信息,但还需要对车辆的运动轨迹做出稳定的高精度融合定位,即让行进中的车辆知道“我在哪里”。

一直以来,大疆在SLAM(Simultaneous Localization and Mapping,即时定位与建图)领域的产品化应用能力都居于世界顶尖地位。大疆车载以无人机定位与航拍建图的技术积累为基础, 也在实车环境打磨了超过六年以上。

因此,「成行平台」的局部位姿估计(EgoMotion)能力依然继承了以惯导立体双目为主导的SLAM技术,不论在拥堵、暴雨 、夜间及地下停车场场景,均可保持稳定、高精度的车辆轨迹估计, 同时也支持扩展接入其它周视单目、 鱼眼等多种相机,以进一步提升性能。(更多信息可参阅:惯导立体双目视觉系统:像人类一样看见三维世界

视觉惯导融合定位技术(VINS)支持地下多层停车场的高精度定位

局部位姿估计使用多传感器融合的方法,以利用不同传感器的优势。但在实际量产过程中,各传感器的安装位置难以精确保证, 且这些位置也会随着时间的推移发生形变,整体的传感器位置角度是时变系统。为了解决这些问题,局部位姿估计除了输出高精度的本车轨迹信息,同时会将各类传感器的外参(即传感器的位置、角度)进行精确建模,充分考虑其在各类场景下的可观性,与轨迹共同进行SLAM优化。

在传统的本车局部位姿估计中,输入主要有惯性测量单元(IMU)和轮速,其中IMU主要提供车辆偏航角速率, 结合四轮轮速,通过构建车辆的阿克曼转向模型,以计算出本车轨迹。

但轮速和IMU这两类传感器受轮速滑移、IMU噪声温漂等影响,精度有限。这两类传感器虽然有一定的信息互补,但通过轮速积分、IMU的加速度和角速度积分得到位置、速度、姿态等信息,都是积分的形式计算轨迹,传感器噪声和误差会累积到最终的轨迹中。

为了避免这样的情况发生,「成行平台」对车辆运动轨迹的,除上述两类传感器的输入之外,还在线融合了以双目深度估计为主导的视觉信息,即通过利用图像信息,结合3D的视觉原理,便能够直接获取到前后两帧图像的相对位置、姿态信息。

以下方图片为例,首先通过一些特征点检测与匹配算法,从图像中获取一些匹配点对,一个匹配点对实际上对应着物理世界中的同一个静止地标。假设已通过双目测距的方式,得到了该静止地标的深度,那么地标在图像中的投影像素发生变化的原因,即是因为车辆的位置与姿态发生了变化——也就是说,在已知地标点在前后两帧图像的像素坐标后,通过相机投影模型,便可以估计出图像帧间的相对位置、姿态,进而获得车辆的运动轨迹。

在实际过程中,我们并不会显性的利用每个传感器单独求解轨迹,然后再对结果进行融合,而是将之前所描述的物理原理,通过建模的形式,对每一个传感器构建其相应的观测方程。观测方程由已知的物理量(如像素、轮速、IMU的角速度加速度等)与待求解的轨迹变量构成,最后通过一些非线性优化的手段,可以从这些观测方程中求解出车辆的运动轨迹信息。

可以形象的用一个弹簧系统,描述这个过程:每一个传感器的观测方程类似一个弹簧,待求解的本车轨迹信息就是中间的圆形,边上的六边形对应着每个传感器的观测,求解的过程就是观测位置固定的情况下——传感器的测量结果已知,根据传感器本身误差特性来设定的弹簧强弱———调节观测方程的置信度,最终决定圆形的位置。

此外,出于对自动驾驶安全性的极度重视, 大疆车载严格按照车规标准对IMU的工作温度(-40℃~125℃) 、功能安全等级(ASIL-B)进行要求和选型。在此前提下,如果要求惯导本身还具有较高的性能指标,成本会急剧增加。为了控制成本以降本可达“人人可用的智能驾驶”目标, 「成行平台」搭建了自研的全温段车规级IMU标定产线及生产流程, 以实现精准标定来提升性能,满足局部位姿估计对惯导的指标需求。

产线标定的IMU结果实例

结合对车载原有轮速的应用、对IMU的精确建模和标定、对视觉信息的深度探索,以及多传感器融合的多年应用积累,「成行平台」上的局部位姿估计能力,可以做到全天候任意场景输出高精度的6DoF(即6个自由度)车辆位姿估计,为智能驾驶在感知融合、决策规划和控制等环节提供夯实的基础。

写在最后

大疆车载一直以来的思路,是用基本的硬件配置实现核心智能驾驶功能,而不是依靠昂贵传感器的堆叠,或是对外挂传感器(如高精地图)产生依赖来实现。

从感知层面而言,这就正如人类司机在驾驶时,并不需要全局式眼观六路耳听八方的“先验信息”,仅依靠局部空间场景中的信号标识、道路特征、车道空间所提供的有限信息,也能进行安全、稳定的驾驶,但对智能驾驶系统而言,无疑对软件算法和融合技术提出了更高的要求。

「成行平台」合理并成功地践行了这一思路:使用低成本的传感器构型、恰到好处的算力,实现了行泊一体BEV动静态感知能力,在惯导立体双目的纯视觉算法基础上,将双目视觉信息、惯导信息与轮式里程计信息融合实现车辆高精定位,才实现如今的在线局部高精度地图技术。

在线局部高精度地图技术对昂贵异构传感器堆叠和高精地图的依赖方案,提供了高价值的平替可能,让「成行平台」能够帮助车企打造门槛更低性能更好的智能驾驶功能;另一方面,它也进一步提升智能驾驶系统的场景泛化能力,加速推动了智能驾驶“人人可用,处处能用”的普及脚步。

Baidu
map