VLA 简介¶
VLA(Vision-Language-Action)是一类把视觉、语言和动作控制结合在一起的模型。 它可以“看懂环境 + 理解指令 + 输出动作”,常用于机器人操作任务。
🧩 硬件清单¶
- 1 台 OpenArmX 双臂机器人
- 2 个 RealSense D405(左右手)
- 1 个 RealSense D435(头部)
- 1 台 遥操设备:Pico4 Ultra(VR 遥操作)或 外骨骼 或 OpenArmX 主动版
一句话理解¶
🖼️ 看到画面 + 💬 听懂人话 → 🤖 生成动作
核心能力¶
- 👀 视觉理解:识别物体、位置和场景状态。
- 🧠 语言理解:理解自然语言任务目标。
- ✋ 动作决策:输出机械臂或机器人下一步动作。
典型流程(小示意图)¶
相机图像 + 文本指令
↓
VLA模型
↓
机器人动作序列
常见应用¶
- 🏠 家庭服务机器人
- 🏭 工业分拣与装配
- 🧪 实验室自动化操作
✅ 重点:VLA 的价值在于让机器人更自然地“听懂并执行”人类指令。
OpenArmX 上的 VLA 流程¶
数据采集(VR/同构/外骨骼)
↓
LeRobot 数据集
↓
模型训练
↓
真机推理
文档阅读顺序(建议)¶
VLA/环境配置.mdVLA/采集数据/VR.md(同构/外骨骼可参考对应页)VLA/训练/模型下载.mdVLA/训练/单卡训练.md或VLA/训练/多卡训练.mdVLA/推理.md
⚠️ 重要提醒¶
Pi0/Pi0.5与SmolVLA/XVLA依赖存在冲突,建议拆分环境。- 初次实验请先完成“小样本采集 + 短步数训练 + 小回合推理”闭环。