BEVFormer: 基于时空Transformer的多相机BEV感知

BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

2022-10-01ECCV 2022有代码实现

中文摘要

通过时空Transformer构建统一BEV表示,用空间交叉注意力做2D-to-3D投影,时间自注意力融合历史帧,支持3D检测和地图分割。

工程评注

部署关键:空间交叉注意力占推理时间60%。

  • 需自定义 TensorRT plugin 处理 deformable attention
  • BEVFormer-Small 在 Orin 上可达 ~10FPS
  • backbone 量化 INT8,transformer head 保持 FP16
  • num_points=4 是精度/速度最佳平衡点
  • 已成为 BEV 感知方向的事实标准 baseline

相关论文