跳转至

VLA 简介

VLA(Vision-Language-Action)是一类把视觉语言动作控制结合在一起的模型。 它可以“看懂环境 + 理解指令 + 输出动作”,常用于机器人操作任务。

🧩 硬件清单

  • 1 台 OpenArmX 双臂机器人
  • 2 个 RealSense D405(左右手)
  • 1 个 RealSense D435(头部)
  • 1 台 遥操设备:Pico4 Ultra(VR 遥操作)或 外骨骼 或 OpenArmX 主动版

一句话理解

🖼️ 看到画面 + 💬 听懂人话 → 🤖 生成动作

核心能力

  • 👀 视觉理解:识别物体、位置和场景状态。
  • 🧠 语言理解:理解自然语言任务目标。
  • ✋ 动作决策:输出机械臂或机器人下一步动作。

典型流程(小示意图)

相机图像 + 文本指令
        ↓
      VLA模型
        ↓
   机器人动作序列

常见应用

  • 🏠 家庭服务机器人
  • 🏭 工业分拣与装配
  • 🧪 实验室自动化操作

✅ 重点:VLA 的价值在于让机器人更自然地“听懂并执行”人类指令。

OpenArmX 上的 VLA 流程

数据采集(VR/同构/外骨骼)
          ↓
    LeRobot 数据集
          ↓
      模型训练
          ↓
      真机推理

文档阅读顺序(建议)

  1. VLA/环境配置.md
  2. VLA/采集数据/VR.md(同构/外骨骼可参考对应页)
  3. VLA/训练/模型下载.md
  4. VLA/训练/单卡训练.mdVLA/训练/多卡训练.md
  5. VLA/推理.md

⚠️ 重要提醒

  • Pi0/Pi0.5SmolVLA/XVLA 依赖存在冲突,建议拆分环境。
  • 初次实验请先完成“小样本采集 + 短步数训练 + 小回合推理”闭环。