跳转至

openArmX技术文档

VLA简介

VLA 简介¶

VLA（Vision-Language-Action）是一类把视觉、语言和动作控制结合在一起的模型。它可以“看懂环境 + 理解指令 + 输出动作”，常用于机器人操作任务。

🧩 硬件清单¶

1 台 OpenArmX 双臂机器人
2 个 RealSense D405（左右手）
1 个 RealSense D435（头部）
1 台遥操设备：Pico4 Ultra（VR 遥操作）或外骨骼或 OpenArmX 主动版

一句话理解¶

🖼️ 看到画面 + 💬 听懂人话 → 🤖 生成动作

核心能力¶

👀 视觉理解：识别物体、位置和场景状态。
🧠 语言理解：理解自然语言任务目标。
✋ 动作决策：输出机械臂或机器人下一步动作。

典型流程（小示意图）¶

相机图像 + 文本指令
        ↓
      VLA模型
        ↓
   机器人动作序列

常见应用¶

🏠 家庭服务机器人
🏭 工业分拣与装配
🧪 实验室自动化操作

✅ 重点：VLA 的价值在于让机器人更自然地“听懂并执行”人类指令。

OpenArmX 上的 VLA 流程¶

数据采集（VR/同构/外骨骼）
          ↓
    LeRobot 数据集
          ↓
      模型训练
          ↓
      真机推理

文档阅读顺序（建议）¶

VLA/环境配置.md
VLA/采集数据/VR.md（同构/外骨骼可参考对应页）
VLA/训练/模型下载.md
VLA/训练/单卡训练.md 或 VLA/训练/多卡训练.md
VLA/推理.md

⚠️ 重要提醒¶

Pi0/Pi0.5 与 SmolVLA/XVLA 依赖存在冲突，建议拆分环境。
初次实验请先完成“小样本采集 + 短步数训练 + 小回合推理”闭环。