★BEVFormer: 基于时空Transformer的多相机BEV感知
BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
2022-10-01ECCV 2022有代码实现
中文摘要
通过时空Transformer构建统一BEV表示,用空间交叉注意力做2D-to-3D投影,时间自注意力融合历史帧,支持3D检测和地图分割。
工程评注
部署关键:空间交叉注意力占推理时间60%。
- 需自定义 TensorRT plugin 处理 deformable attention
- BEVFormer-Small 在 Orin 上可达 ~10FPS
- backbone 量化 INT8,transformer head 保持 FP16
num_points=4是精度/速度最佳平衡点- 已成为 BEV 感知方向的事实标准 baseline