GenAD: 用生成式端到端模型实现自动驾驶
GenAD: Generalized Predictive Model for Autonomous Driving
将自动驾驶建模为生成式序列预测问题,通过结构化latent空间实现场景预测与规划的统一生成,是端到端方法的新范式。
GenAD: Generalized Predictive Model for Autonomous Driving
将自动驾驶建模为生成式序列预测问题,通过结构化latent空间实现场景预测与规划的统一生成,是端到端方法的新范式。
LiDAR4D: Dynamic Driving Scene Reconstruction with 4D Gaussian Splatting
提出LiDAR4D,用4D高斯表示重建动态驾驶场景的LiDAR点云,实现高质量时空一致的点云生成,可用于仿真和自动标注。
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
提出DriveVLM框架,将视觉语言大模型融入自动驾驶全链路,通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。
Scene as Occupancy
提出3D占用栅格作为统一感知表示,可描述任意形状物体的精细3D结构,弥补传统3D框对不规则障碍物建模的不足。
VAD: Vectorized Scene Representation for Efficient Autonomous Driving
提出全向量化驾驶场景表示,将agent运动和地图元素建模为显式向量实例,避免密集栅格化,实现高效端到端规划。
GAIA-1: A Generative World Model for Autonomous Driving
Wayve提出GAIA-1,利用视频、文本和动作输入生成逼真驾驶场景视频,是首个大规模自动驾驶世界模型,可用于仿真和数据增强。
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
Google DeepMind提出RT-2,将大规模VLM直接微调为机器人动作策略模型(VLA),展示了互联网知识向具身智能迁移的可行性。
Planning-oriented Autonomous Driving
提出统一自动驾驶框架UniAD,通过query-based设计将感知、预测、规划联合优化在单一网络中,在nuScenes上实现SOTA端到端驾驶性能。
MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction
提出MapTR,通过置换等价建模和分层query设计,实现高效的端到端在线矢量化高精地图构建,消除对离线HD Map的依赖。
BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
通过时空Transformer构建统一BEV表示,用空间交叉注意力做2D-to-3D投影,时间自注意力融合历史帧,支持3D检测和地图分割。