daohang/OUTLINE.md

# ROS1 + MuJoCo VLA 视觉避障 3D 导航 — 项目大纲

## 一、项目概述

基于 ROS1 与 MuJoCo 搭建一个 **VLA (Vision-Language-Action)** 视觉避障 3D 导航系统，实现圆柱形机器人在仿真环境中的自主避障与路径规划。

---

## 二、里程碑目标

### 🎯 目标一：基础仿真场景（当前阶段）✅
- [x] 创建 MuJoCo 仿真环境
- [x] 添加圆柱体机器人/代理
- [x] 放置若干障碍物（盒子、圆柱、球体）
- [x] 运行基础物理仿真

### 目标二：相机与视觉感知
- [ ] 在圆柱体上添加相机传感器
- [ ] 实现 RGB/深度图像发布
- [ ] ROS1 `/camera/image_raw` 话题发布

### 目标三：运动控制接口
- [ ] 圆柱体自由关节（freejoint）或差速模型
- [ ] 发布 `/cmd_vel` 接收速度指令
- [ ] 订阅 `/odom` 里程计

### 目标四：VLA 视觉避障核心
- [ ] 集成视觉语言模型（VLM/VLA）接口
- [ ] 基于视觉的障碍物检测与语义理解
- [ ] 语言条件避障策略（如 "避开红色障碍物"）

### 目标五：3D 导航与路径规划
- [ ] 3D 栅格地图或点云表示
- [ ] 路径规划算法（A* / RRT 等）
- [ ] 与 VLA 决策融合

### 目标六：ROS1 完整集成
- [ ] ROS1 包结构、launch、参数服务器
- [ ] TF 变换、传感器消息标准格式
- [ ] 可视化（RViz）

---

## 三、技术栈

| 组件 | 技术 |
|------|------|
| 仿真 | MuJoCo 3.x |
| 机器人中间件 | ROS1 Noetic |
| 视觉 | OpenCV, 相机传感器 |
| VLA/VLM | 待选（如 LLaVA, RT-2, OpenVLA 等） |
| 语言 | Python 3.8+ |

---

## 四、目录结构（规划）

```
/home/pc/test/
├── OUTLINE.md              # 本大纲
├── requirements.txt
├── mujoco_scenes/          # MuJoCo 场景
│   └── cylinder_obstacles.xml
├── scripts/                # 仿真与 ROS 节点
│   ├── run_simulation.py
│   └── ros_bridge.py       # 后续
└── ros_ws/                 # ROS1 工作空间（后续）
    └── src/
        └── vla_nav/
```

---

## 五、依赖安装

```bash
pip install mujoco
# ROS1 Noetic 需单独安装
```