给自动驾驶AI搞个“外挂”,0.1M就能显著提升运动状态判别力,来自港大&TCL丨开源
只需“100K大小的外挂”,就能让自动驾驶AI识别“物体运动状态”的能力大幅上升!
这是一项来自香港大学计算机视觉与机器智能实验室(CVMI Lab)和TCL AI Lab的新研究,目前论文已被CVPR 2023收录。
研究提出了一种叫做MarS3D的轻量级模型,给原本只能识别物体“是什么”的语义分割模型用上后,就能让它们进一步学会识别这些物体“是否在动”。
而且是任意主流模型即插即用,几乎不需要额外的计算量(推理时间只增加不到0.03秒),目前已开源。
要知道,对于靠激光雷达来判断周围环境的自动驾驶系统而言,其感知能力,很大程度上依赖于3D点云语义分割模型的准确率和效率。
如果想提升模型识别“运动物体”的能力,往往需要将繁重的室外多帧点云数据分别进行特征提取和处理,但这种方法不仅要增加大量计算,识别性能也没提升多少,属实是事倍功半。
相比之下,MarS3D参数量只有约100K大小,却能将主流点云分割模型的性能提升近5%。
这究竟是怎么做到的?
01
100K参数让模型学会识别“运动”物体
首先要了解一下3D点云的两种语义分割任务,单扫描(single-scan)和多扫描(multi-scan)。
这两种方法的核心差异,在于能否区分物体的运动状态。
单扫描任务只需要根据单帧点云,把场景中汽车、行人、道路等语义信息分割并标注出来。像下图,不同的颜色代表不同的物体,如蓝色的点云代表车:
多扫描任务,则需要根据时序上的多帧点云,同时分割语义信息和运动状态。
换言之,不仅要学会区分汽车、行人、道路,还得识别这些物体是否在运动。如汽车标签扩展成“运动的车”和“不动的车”,以及行人扩展成“运动的行人”和“不动的行人”:目前,自动驾驶做激光雷达点云数据的处理,主要还是通过单扫描语义分割方法。
虽然能通过扩展标签、融合点云数据,直接将单扫描模型训练成多扫描模型,从而让AI掌握识别物体运动状态的能力,但存在两个问题:
一个是性能收效一般;另一个是融合点云数据量大,导致这种模型复杂、计算时间长,而这正是“争分夺秒”的自动驾驶系统无法接受的。
为了解决这两个问题,让语义分割模型又快又好地掌握识别“运动物体”的方法,MarS3D横空出世。
即使之前模型只能做单扫描语义分割,给它加个MarS3D后,不仅能大幅提升多扫描语义分割能力,区分物体“是否在运动”,效果还比其他多扫描方法更好。