AD
AD Knowledge BaseAutonomous Driving AI
ADKB
PapersAdmin
AD Knowledge Base - Autonomous Driving AI Research
首页BEVFormer: 基于时空Transformer的多相机BEV感知

★BEVFormer: 基于时空Transformer的多相机BEV感知

BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

2022-10-01ECCV 2022有代码实现
感知端到端
查看原文查看代码

中文摘要

通过时空Transformer构建统一BEV表示,用空间交叉注意力做2D-to-3D投影,时间自注意力融合历史帧,支持3D检测和地图分割。

工程评注

部署关键:空间交叉注意力占推理时间60%。

  • 需自定义 TensorRT plugin 处理 deformable attention
  • BEVFormer-Small 在 Orin 上可达 ~10FPS
  • backbone 量化 INT8,transformer head 保持 FP16
  • num_points=4 是精度/速度最佳平衡点
  • 已成为 BEV 感知方向的事实标准 baseline

相关论文

OccNet: 以3D占用栅格表示驾驶场景

2023-10-01|ICCV 2023
感知端到端

UniAD: 面向规划的统一自动驾驶框架

2023-06-18|CVPR 2023 Best Paper
感知端到端预测

MapTR: 在线高精地图的结构化建模

2023-06-18|ICLR 2023
感知端到端城市道路