AutoDrive AI 知识库 — 自动驾驶×大模型领域的中文论文索引

LiDAR4D: 基于4D高斯的动态驾驶场景LiDAR重建

LiDAR4D: Dynamic Driving Scene Reconstruction with 4D Gaussian Splatting

2024-06-17|CVPR 2024

数据生成感知仿真

提出LiDAR4D，用4D高斯表示重建动态驾驶场景的LiDAR点云，实现高质量时空一致的点云生成，可用于仿真和自动标注。

GitHubarXiv

有代码

GenAD: 用生成式端到端模型实现自动驾驶

GenAD: Generalized Predictive Model for Autonomous Driving

2024-06-17|CVPR 2024

端到端预测规划

将自动驾驶建模为生成式序列预测问题，通过结构化latent空间实现场景预测与规划的统一生成，是端到端方法的新范式。

GitHubarXiv

有代码

★DriveVLM: 视觉语言模型驱动的自动驾驶

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

2024-02-19|CoRL 2024

城市道路VLM规划

提出DriveVLM框架，将视觉语言大模型融入自动驾驶全链路，通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。

arXiv

★VAD: 向量化场景表示的端到端自动驾驶

VAD: Vectorized Scene Representation for Efficient Autonomous Driving

2023-10-01|ICCV 2023

端到端城市道路高速规划

提出全向量化驾驶场景表示，将agent运动和地图元素建模为显式向量实例，避免密集栅格化，实现高效端到端规划。

GitHubarXiv

有代码

★OccNet: 以3D占用栅格表示驾驶场景

Scene as Occupancy

2023-10-01|ICCV 2023

感知端到端

提出3D占用栅格作为统一感知表示，可描述任意形状物体的精细3D结构，弥补传统3D框对不规则障碍物建模的不足。

GitHubarXiv

有代码

★GAIA-1: 自动驾驶生成式世界模型

GAIA-1: A Generative World Model for Autonomous Driving

2023-09-29|arXiv 2023

数据生成仿真世界模型

Wayve提出GAIA-1，利用视频、文本和动作输入生成逼真驾驶场景视频，是首个大规模自动驾驶世界模型，可用于仿真和数据增强。

arXiv

RT-2: 视觉-语言-动作模型在机器人控制中的迁移

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

2023-07-28|CoRL 2023

VLMVLA控制

Google DeepMind提出RT-2，将大规模VLM直接微调为机器人动作策略模型（VLA），展示了互联网知识向具身智能迁移的可行性。

arXiv

★UniAD: 面向规划的统一自动驾驶框架

Planning-oriented Autonomous Driving

2023-06-18|CVPR 2023 Best Paper

感知端到端预测规划

提出统一自动驾驶框架UniAD，通过query-based设计将感知、预测、规划联合优化在单一网络中，在nuScenes上实现SOTA端到端驾驶性能。

GitHubarXiv

有代码

★MapTR: 在线高精地图的结构化建模

MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction

2023-06-18|ICLR 2023

感知端到端城市道路地图

提出MapTR，通过置换等价建模和分层query设计，实现高效的端到端在线矢量化高精地图构建，消除对离线HD Map的依赖。

GitHubarXiv

有代码

★BEVFormer: 基于时空Transformer的多相机BEV感知

BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

2022-10-01|ECCV 2022

感知端到端

通过时空Transformer构建统一BEV表示，用空间交叉注意力做2D-to-3D投影，时间自注意力融合历史帧，支持3D检测和地图分割。

GitHubarXiv

有代码

LiDAR4D: 基于4D高斯的动态驾驶场景LiDAR重建

GenAD: 用生成式端到端模型实现自动驾驶

★DriveVLM: 视觉语言模型驱动的自动驾驶

★VAD: 向量化场景表示的端到端自动驾驶

★OccNet: 以3D占用栅格表示驾驶场景

★GAIA-1: 自动驾驶生成式世界模型

RT-2: 视觉-语言-动作模型在机器人控制中的迁移

★UniAD: 面向规划的统一自动驾驶框架

★MapTR: 在线高精地图的结构化建模

★BEVFormer: 基于时空Transformer的多相机BEV感知

关于 AutoDrive AI 知识库