AutoDrive AI 知识库

★DriveVLM: 视觉语言模型驱动的自动驾驶

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

2024-02-19CoRL 20242 次浏览

城市道路 VLM 规划

查看原文暂无代码

中文摘要

提出DriveVLM框架，将视觉语言大模型融入自动驾驶全链路，通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。

工程评注

VLM + AD 融合的代表作，理想汽车核心研究。

分层设计：VLM负责高层推理，传统planner负责实时控制
VLM 推理延迟 ~200ms，不可直接用于控制回路
DriveVLM-Dual 方案：快慢双系统，慢系统用VLM
对 corner case（施工区、异形障碍物）理解能力远超传统方法
提示工程对决策质量影响显著

相关论文

MapTR: 在线高精地图的结构化建模

2023-06-18|ICLR 2023

感知端到端城市道路

VAD: 向量化场景表示的端到端自动驾驶

2023-10-01|ICCV 2023

端到端城市道路高速

UniAD: 面向规划的统一自动驾驶框架

2023-06-18|CVPR 2023 Best Paper

感知端到端预测

RT-2: 视觉-语言-动作模型在机器人控制中的迁移

2023-07-28|CoRL 2023

GenAD: 用生成式端到端模型实现自动驾驶

2024-06-17|CVPR 2024

端到端预测规划

觉得有收获？订阅周报获取更多深度解读

每周精选 3-5 篇自动驾驶 AI 论文，中文解读直达邮箱

无垃圾邮件，随时退订