AD Knowledge BaseAutonomous Driving AI

★BEVFormer: 基于时空Transformer的多相机BEV感知

BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

2022-10-01ECCV 2022有代码实现

感知端到端

查看原文查看代码

中文摘要

通过时空Transformer构建统一BEV表示，用空间交叉注意力做2D-to-3D投影，时间自注意力融合历史帧，支持3D检测和地图分割。

工程评注

部署关键：空间交叉注意力占推理时间60%。

需自定义 TensorRT plugin 处理 deformable attention
BEVFormer-Small 在 Orin 上可达 ~10FPS
backbone 量化 INT8，transformer head 保持 FP16
num_points=4 是精度/速度最佳平衡点
已成为 BEV 感知方向的事实标准 baseline

相关论文

MapTR: 在线高精地图的结构化建模

2023-06-18|ICLR 2023

感知端到端城市道路

OccNet: 以3D占用栅格表示驾驶场景

2023-10-01|ICCV 2023

感知端到端

UniAD: 面向规划的统一自动驾驶框架

2023-06-18|CVPR 2023 Best Paper

感知端到端预测