AD
Admin
Papers
View Site
Edit Paper
DriveVLM: 视觉语言模型驱动的自动驾驶
论文标题
*
英文原标题
(选填)
arXiv / 原文链接
(选填)
粘贴 arxiv ID(如 2401.12345)可自动补全链接
GitHub 链接
(选填)
发表日期
*
发表会议/期刊
(选填)
有开源实现
精选推荐
中文摘要
*
提出DriveVLM框架,将视觉语言大模型融入自动驾驶全链路,通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。
61/200
工程评注
*
**VLM + AD 融合的代表作**,理想汽车核心研究。 - 分层设计:VLM负责高层推理,传统planner负责实时控制 - VLM 推理延迟 ~200ms,不可直接用于控制回路 - DriveVLM-Dual 方案:快慢双系统,慢系统用VLM - 对 corner case(施工区、异形障碍物)理解能力远超传统方法 - 提示工程对决策质量影响显著
支持 Markdown 格式,无字数限制
标签分类
(已选 3 个)
技术方向
(1 selected)
感知
Perception
预测
Prediction
规划
Planning
控制
Control
地图
Mapping
定位
Localization
技术范式
(1 selected)
端到端
End-to-End
VLM
Vision-Language Model
VLA
Vision-Language-Action
世界模型
World Model
强化学习
Reinforcement Learning
数据相关
数据生成
Data Generation
自动标注
Auto Labeling
仿真
Simulation
应用场景
(1 selected)
城市道路
Urban Road
高速
Highway
停车
Parking
越野
Off-road
Update Paper
Cancel