★DriveVLM: 视觉语言模型驱动的自动驾驶
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
2024-02-19|CoRL 2024
城市道路VLM规划
提出DriveVLM框架,将视觉语言大模型融入自动驾驶全链路,通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。
arXiv
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
提出DriveVLM框架,将视觉语言大模型融入自动驾驶全链路,通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
Google DeepMind提出RT-2,将大规模VLM直接微调为机器人动作策略模型(VLA),展示了互联网知识向具身智能迁移的可行性。