DriveVLM: 视觉语言模型驱动的自动驾驶

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

2024-02-19CoRL 20242 次浏览
查看原文暂无代码

中文摘要

提出DriveVLM框架,将视觉语言大模型融入自动驾驶全链路,通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。

工程评注

VLM + AD 融合的代表作,理想汽车核心研究。

  • 分层设计:VLM负责高层推理,传统planner负责实时控制
  • VLM 推理延迟 ~200ms,不可直接用于控制回路
  • DriveVLM-Dual 方案:快慢双系统,慢系统用VLM
  • 对 corner case(施工区、异形障碍物)理解能力远超传统方法
  • 提示工程对决策质量影响显著

相关论文

觉得有收获?订阅周报获取更多深度解读

每周精选 3-5 篇自动驾驶 AI 论文,中文解读直达邮箱

无垃圾邮件,随时退订