AD Knowledge BaseAutonomous Driving AI

AD Knowledge Base - Autonomous Driving AI Research

首页DriveVLM: 视觉语言模型驱动的自动驾驶

★DriveVLM: 视觉语言模型驱动的自动驾驶

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

2024-02-19CoRL 2024

城市道路 VLM 规划

查看原文暂无代码

中文摘要

提出DriveVLM框架，将视觉语言大模型融入自动驾驶全链路，通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。

工程评注

VLM + AD 融合的代表作，理想汽车核心研究。

分层设计：VLM负责高层推理，传统planner负责实时控制
VLM 推理延迟 ~200ms，不可直接用于控制回路
DriveVLM-Dual 方案：快慢双系统，慢系统用VLM
对 corner case（施工区、异形障碍物）理解能力远超传统方法
提示工程对决策质量影响显著

相关论文

UniAD: 面向规划的统一自动驾驶框架

2023-06-18|CVPR 2023 Best Paper

感知端到端预测

GenAD: 用生成式端到端模型实现自动驾驶

2024-06-17|CVPR 2024

端到端预测规划

VAD: 向量化场景表示的端到端自动驾驶

2023-10-01|ICCV 2023

端到端城市道路高速