★DriveVLM: 视觉语言模型驱动的自动驾驶
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
2024-02-19|CoRL 2024
城市道路VLM规划
提出DriveVLM框架,将视觉语言大模型融入自动驾驶全链路,通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。
arXiv
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
提出DriveVLM框架,将视觉语言大模型融入自动驾驶全链路,通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
Google DeepMind提出RT-2,将大规模VLM直接微调为机器人动作策略模型(VLA),展示了互联网知识向具身智能迁移的可行性。
AutoDrive AI 知识库是一个面向自动驾驶 AI 工程师与研究者的垂直论文索引平台。我们持续追踪端到端自动驾驶、视觉语言模型(VLM)、视觉语言动作模型(VLA)、世界模型、自动标注、3D 感知、BEV 感知、运动规划等核心方向的前沿研究,并提供中文解读与工程评注。
每篇论文均附带多维度标签分类(研究方向、技术范式、数据模态、应用场景、关联公司、论文类型),帮助你快速定位与筛选目标文献。无论你在调研最新的端到端架构、寻找可复现的开源实现,还是关注 Waymo、Tesla、华为等企业的技术动态,这里都是你的起点。
订阅周报,获取每周精选论文解读