AD
AD Knowledge BaseAutonomous Driving AI
ADKB
PapersAdmin
AD Knowledge Base - Autonomous Driving AI Research
首页DriveVLM: 视觉语言模型驱动的自动驾驶

★DriveVLM: 视觉语言模型驱动的自动驾驶

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

2024-02-19CoRL 2024
城市道路VLM规划
查看原文暂无代码

中文摘要

提出DriveVLM框架,将视觉语言大模型融入自动驾驶全链路,通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。

工程评注

VLM + AD 融合的代表作,理想汽车核心研究。

  • 分层设计:VLM负责高层推理,传统planner负责实时控制
  • VLM 推理延迟 ~200ms,不可直接用于控制回路
  • DriveVLM-Dual 方案:快慢双系统,慢系统用VLM
  • 对 corner case(施工区、异形障碍物)理解能力远超传统方法
  • 提示工程对决策质量影响显著

相关论文

UniAD: 面向规划的统一自动驾驶框架

2023-06-18|CVPR 2023 Best Paper
感知端到端预测

GenAD: 用生成式端到端模型实现自动驾驶

2024-06-17|CVPR 2024
端到端预测规划

VAD: 向量化场景表示的端到端自动驾驶

2023-10-01|ICCV 2023
端到端城市道路高速