★DriveVLM: 视觉语言模型驱动的自动驾驶
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
2024-02-19CoRL 2024
查看原文暂无代码
中文摘要
提出DriveVLM框架,将视觉语言大模型融入自动驾驶全链路,通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。
工程评注
VLM + AD 融合的代表作,理想汽车核心研究。
- 分层设计:VLM负责高层推理,传统planner负责实时控制
- VLM 推理延迟 ~200ms,不可直接用于控制回路
- DriveVLM-Dual 方案:快慢双系统,慢系统用VLM
- 对 corner case(施工区、异形障碍物)理解能力远超传统方法
- 提示工程对决策质量影响显著