AutoDrive AI 知识库

AD Knowledge Base - Autonomous Driving AI Research

每周收到自动驾驶×大模型领域的精选论文解读

标签筛选

仅显示有代码实现仅显示精选推荐

共 2 篇筛选：VLM

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

提出DriveVLM框架，将视觉语言大模型融入自动驾驶全链路，通过场景理解、场景分析和分层规划三阶段实现复杂场景推理决策。

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Google DeepMind提出RT-2，将大规模VLM直接微调为机器人动作策略模型（VLA），展示了互联网知识向具身智能迁移的可行性。

AutoDrive AI 知识库是一个面向自动驾驶 AI 工程师与研究者的垂直论文索引平台。我们持续追踪端到端自动驾驶、视觉语言模型（VLM）、视觉语言动作模型（VLA）、世界模型、自动标注、3D 感知、BEV 感知、运动规划等核心方向的前沿研究，并提供中文解读与工程评注。

每篇论文均附带多维度标签分类（研究方向、技术范式、数据模态、应用场景、关联公司、论文类型），帮助你快速定位与筛选目标文献。无论你在调研最新的端到端架构、寻找可复现的开源实现，还是关注 Waymo、Tesla、华为等企业的技术动态，这里都是你的起点。

订阅周报，获取每周精选论文解读