跳到主要内容

具身智能(Embodied AI)行业深度分析报告

模拟视角: Sergey Levine(谢尔盖·莱文)

  • Google DeepMind 研究科学家
  • UC Berkeley 电子工程与计算机科学系教授
  • Physical Intelligence(PI)联合创始人
  • 机器人深度强化学习与模仿学习领域奠基人之一

报告目的:以工程科学家和行业参与者的双重视角,系统性地剖析具身智能这一正在改变人工智能与物理世界交互范式的行业。


目录

  1. 行业定义与本质
  2. 机器人系统架构全图
  3. 机器人大脑架构详解
  4. Agent与具身智能的融合
  5. 全球知名公司及产品矩阵
  6. 行业关键术语词典
  7. 当前热门技术与方向
  8. 未来1-2年趋势预测
  9. Agent向具身智能扩展的探讨
  10. 结论与展望

一、行业定义与本质

1.1 什么是具身智能

具身智能(Embodied AI) 是指人工智能系统具有物理身体并能够与环境进行实时交互的智能形态。与传统仅处理数字信息(文本、图像)的AI不同,具身智能的"智能"体现在:

传统AI(离身智能):
输入:文本、图像、视频 → 处理:统计推断/模式识别 → 输出:文本/决策

└──────── 缺乏物理世界交互能力

具身智能:
输入:传感器数据(视觉、触觉、力矩、位置)→ 处理:感知-决策-控制一体化 → 输出:电机控制指令

└──────── 具备物理世界感知、推理和操作能力

核心问题:如何让机器人在非结构化的真实物理世界中,自主理解场景、执行复杂操作任务?

1.2 具身智能的三大学科交叉

┌─────────────────┐
│ 人工智能 (AI) │
│ 深度学习 / 强化学习│
└────────┬────────┘

┌─────────────────┼─────────────────┐
│ │ │
▼ ▼ ▼
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ 机器人学 │ │ 计算机视觉 │ │ 自然语言处理 │
│ Robot Kinematics │ │ Computer Vision │ │ Natural Lang. │
│ 运动规划/控制 │ │ 3D重建/感知 │ │ 指令理解/对话 │
└─────────────────┘ └─────────────────┘ └─────────────────┘

二、机器人系统架构全图

2.1 整体架构

┌─────────────────────────────────────────────────────────────────────────┐
│ 具身智能机器人系统完整架构 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 用户指令层 │ │
│ │ 语音 / 文本 / 示教(人类演示) │ │
│ └────────────────────────────┬────────────────────────────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 认知大脑层 │ │
│ │ ┌───────────────┐ ┌───────────────┐ ┌───────────────────┐ │ │
│ │ │ 任务规划器 │ │ VLM/VLA │ │ 技能库 │ │ │
│ │ │ Task Planner │ │ (视觉-语言- │ │ Skill Library │ │ │
│ │ │ (LLM驱动) │ │ 动作模型) │ │ (RL/IL策略集合) │ │ │
│ │ └───────┬───────┘ └───────┬───────┘ └─────────┬─────────┘ │ │
│ │ └──────────────────┼──────────────────┘ │ │
│ │ ▼ │ │
│ │ ┌─────────────────────┐ │ │
│ │ │ 决策选择器 │ │ │
│ │ │ Decision Selector │ │ │
│ │ └──────────┬──────────┘ │ │
│ └─────────────────────────────┼──────────────────────────────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 技能执行层 │ │
│ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────────────────┐ │ │
│ │ │ 运动规划器 │ │ 视觉伺服 │ │ 力/阻抗控制器 │ │ │
│ │ │ Motion │ │ Visual │ │ Force/Impedance │ │ │
│ │ │ Planning │ │ Servoing │ │ Controller │ │ │
│ │ └──────┬──────┘ └──────┬──────┘ └────────────┬────────────┘ │ │
│ │ └────────────────┼─────────────────────┘ │ │
│ │ ▼ │ │
│ │ ┌─────────────────────┐ │ │
│ │ │ 关节指令 (Joint │ │ │
│ │ │ Torque/Position) │ │ │
│ │ └──────────┬──────────┘ │ │
│ └──────────────────────────┼─────────────────────────────────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 硬件执行层 │ │
│ │ │ │
│ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────────┐ │ │
│ │ │ 感知硬件 │ │ 执行硬件 │ │ 计算硬件 │ │ │
│ │ │ │ │ │ │ │ │ │
│ │ │ RGB-D相机 │ │ 电机+减速器 │ │ GPU (Orin/Xavier)│ │ │
│ │ │ LiDAR │ │ 灵巧手 │ │ 主控CPU │ │ │
│ │ │ IMU │ │ 轮式/足式 │ │ CAN/Ethernet │ │ │
│ │ │ 力矩传感器 │ │ 底盘 │ │ │ │ │
│ │ │ 触觉传感器 │ │ │ │ │ │ │
│ │ └──────────────┘ └──────────────┘ └──────────────────┘ │ │
│ │ │ │
│ └───────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────┘

2.2 机器人硬件子系统

┌─────────────────────────────────────────────────────────────┐
│ 机器人硬件组成 │
├────────────────┬────────────────┬─────────────────────────┤
│ 感知系统 │ 执行系统 │ 计算系统 │
├────────────────┼────────────────┼─────────────────────────┤
│ │ │ │
│ RGB相机 │ 电机 (Motor) │ GPU │
│ 深度相机 │ 伺服驱动 │ (Jetson/Orin) │
│ (RealSense) │ 减速器 │ │
│ │ (Harmonic/ │ 边缘计算单元 │
│ LiDAR │ RV) │ (Jetson NX) │
│ │ │ │
│ IMU │ 灵巧手 │ 主控CPU │
│ (惯性测量) │ (20+ DOF) │ (x86/ARM) │
│ │ │ │
│ 力矩传感器 │ 夹爪 │ 实时通信总线 │
│ (F/T Sensor) │ (Gripper) │ (CAN/Ethernet) │
│ │ │ │
│ 触觉传感器 │ 轮式底盘 │ 传感器融合板 │
│ (Tactile) │ 足式关节 │ (Sensor Fusion) │
│ │ │ │
│ 编码器 │ 柔性关节 │ │
│ (Encoder) │ (Series │ │
│ │ Elastic) │ │
│ │ │ │
└────────────────┴────────────────┴─────────────────────────┘

三、机器人大脑架构详解

3.1 大脑核心架构图

┌───────────────────────────────────────────────────────────────────────────────┐
│ 机器人大脑(Robot Brain)三层架构 │
├───────────────────────────────────────────────────────────────────────────────┤
│ │
│ ╔═══════════════════════════════════════════════════════════════════════╗ │
│ ║ 第一层:任务规划层 (Mission Layer) ║ │
│ ║ ║ │
│ ║ ┌──────────────────────────────────────────────────────────────┐ ║ │
│ ║ │ LLM / VLM 核心 │ ║ │
│ ║ │ ┌────────────┐ ┌────────────┐ ┌────────────────────────┐ │ ║ │
│ ║ │ │ GPT-4o │ │ Claude 3 │ │ 开源: LLaVA/Vicuna │ │ ║ │
│ ║ │ │ / Opus │ │ / Sonnet │ │ Qwen/Vicuna │ │ ║ │
│ ║ │ └────────────┘ └────────────┘ └────────────────────────┘ │ ║ │
│ ║ └──────────────────────────────────────────────────────────────┘ ║ │
│ ║ │ ║ │
│ ║ 功能: │ 输出: ║ │
│ ║ • 自然语言指令理解 │ • 子目标序列 (Sub-goals) ║ │
│ ║ • 复杂任务拆解 │ • 技能调用规划 (Skill Plan) ║ │
│ ║ • 常识推理与异常处理 │ • 环境状态描述 (State Description) ║ │
│ ║ • 人类意图推断 │ ║ │
│ ╚═══════════════════════════════════════════════════════════════════════╝ │
│ │ │
│ ▼ │
│ ╔═══════════════════════════════════════════════════════════════════════╗ │
│ ║ 第二层:技能执行层 (Skill Layer) ║ │
│ ║ ║ │
│ ║ ┌───────────────────┐ ┌───────────────────┐ ║ │
│ ║ │ 技能库 │ │ VLA 模型 │ ║ │
│ ║ │ Skill Library │ │ Vision-Language │ ║ │
│ ║ │ │ │ -Action Model │ ║ │
│ ║ │ ┌───────────────┐ │ │ │ ║ │
│ ║ │ │ 抓取 Grasp │ │ │ ┌───────────────┐ │ ║ │
│ ║ │ │ 放置 Place │ │ │ │ RT-2 │ │ ║ │
│ ║ │ │ 推 Push │ │ │ │ VoxPoser │ │ ║ │
│ ║ │ │ 抽屉操作 │ │ │ │ π₀ (PI) │ │ ║ │
│ ║ │ │ 开门/关门 │ │ │ │ Gato │ │ ║ │
│ ║ │ │ ... │ │ │ └───────────────┘ │ ║ │
│ ║ │ └───────────────┘ │ │ │ ║ │
│ ║ │ │ │ 功能: │ ║ │
│ ║ │ ┌───────────────┐ │ │ • 视觉-语言→动作 │ ║ │
│ ║ │ │ RL Policy │ │ │ • 端到端控制 │ ║ │
│ ║ │ │ (强化学习策略) │ │ │ • 跨任务泛化 │ ║ │
│ ║ │ └───────────────┘ │ │ │ ║ │
│ ║ │ │ │ │ ║ │
│ ║ │ ┌───────────────┐ │ │ │ ║ │
│ ║ │ │ IL Policy │ │ │ │ ║ │
│ ║ │ │ (模仿学习策略) │ │ │ │ ║ │
│ ║ │ └───────────────┘ │ │ │ ║ │
│ ║ └───────────────────┘ └───────────────────┘ ║ │
│ ║ │ ║ │
│ ║ 输入:技能参数 + 视觉反馈 │ 输出: ║ │
│ ║ • 目标物体位置 │ • 末端执行器位姿 (End-effector) ║ │
│ ║ • 技能ID │ • 关节力矩/位置指令 ║ │
│ ║ • 当前场景状态 │ ║ │
│ ╚═══════════════════════════════════════════════════════════════════════╝ │
│ │ │
│ ▼ │
│ ╔═══════════════════════════════════════════════════════════════════════╗ │
│ ║ 第三层:运动控制层 (Control Layer) ║ │
│ ║ ║ │
│ ║ ┌────────────────────────────────────────────────────────────┐ ║ │
│ ║ │ 控制器矩阵 │ ║ │
│ ║ │ │ ║ │
│ ║ │ ┌────────────────┐ ┌────────────────┐ │ ║ │
│ ║ │ │ 关节位置控制 │ │ 力矩控制 │ │ ║ │
│ ║ │ │ Joint Position │ │ Torque Ctrl │ │ ║ │
│ ║ │ │ (P/PI/PID) │ │ (F/T) │ │ ║ │
│ ║ │ └────────────────┘ └────────────────┘ │ ║ │
│ ║ │ │ ║ │
│ ║ │ ┌────────────────┐ ┌────────────────┐ │ ║ │
│ ║ │ │ 视觉伺服控制 │ │ 阻抗控制 │ │ ║ │
│ ║ │ │ Visual │ │ Impedance │ │ ║ │
│ ║ │ │ Servoing │ │ Control │ │ ║ │
│ ║ │ └────────────────┘ └────────────────┘ │ ║ │
│ ║ │ │ ║ │
│ ║ │ ┌──────────────────────────────────────────────────────┐ │ ║ │
│ ║ │ │ 运动学/动力学求解 │ │ ║ │
│ ║ │ │ Forward Kinematics / Inverse Dynamics │ │ ║ │
│ ║ │ └──────────────────────────────────────────────────────┘ │ ║ │
│ ║ └────────────────────────────────────────────────────────────┘ ║ │
│ ║ │ ║ │
│ ║ 功能: │ 输出: ║ │
│ ║ • 毫秒级实时控制反馈 │ • PWM/电流指令 → 电机驱动器 ║ │
│ ║ • 安全碰撞检测与响应 │ ║ │
│ ║ • 末端执行器轨迹跟踪 │ ║ │
│ ╚═══════════════════════════════════════════════════════════════════════╝ │
│ │
└───────────────────────────────────────────────────────────────────────────────┘

3.2 大脑三层之间的关系

用户指令输入


┌─────────────────────────────────────────────────────────────┐
│ 第一层:任务规划层(LLM/VLM) │
│ "把桌上的苹果放到冰箱里" │
│ │ │
│ ▼ │
│ 子目标序列:[找到苹果] → [抓取苹果] → [走向冰箱] → [放置苹果] │
└───────────────────────────┬─────────────────────────────────┘


┌─────────────────────────────────────────────────────────────┐
│ 第二层:技能执行层(VLA / RL Policy) │
│ │
│ 对应每个子目标调用对应技能: │
│ • "找到苹果" → Object Detection + Navigation Policy │
│ • "抓取苹果" → Grasp Policy (VLA/RT-2) │
│ • "走向冰箱" → Navigation Policy │
│ • "放置苹果" → Place Policy │
│ │ │
│ ▼ │
│ 末端执行器位姿 (End-effector Pose) │
└───────────────────────────┬─────────────────────────────────┘


┌─────────────────────────────────────────────────────────────┐
│ 第三层:运动控制层(毫秒级实时控制) │
│ │
│ 关节位置/力矩指令 → PWM → 电机驱动器 → 电机 → 机器人关节 │
│ │
│ 频率:1-10 kHz(毫秒级响应) │
└─────────────────────────────────────────────────────────────┘

3.3 VLA模型架构详解

┌─────────────────────────────────────────────────────────────────────────────┐
│ VLA (Vision-Language-Action) 模型 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 输入: │
│ ┌─────────────┐ ┌──────────────────────────────────────────────┐ │
│ │ 视觉输入 │ │ 自然语言指令 │ │
│ │ │ │ │ │
│ │ RGB图像 │ │ "Pick up the red cup and place it in the │ │
│ │ 640×480 │ │ blue box" │ │
│ │ ×3通道 │ │ │ │
│ └──────┬──────┘ └─────────────────────┬───────────────────────┘ │
│ │ │ │
│ └──────────────────┬───────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 视觉编码器 (Vision Encoder) │ │
│ │ │ │
│ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │
│ │ │ ViT (Vision │ │ CNN │ │ ResNet │ │ │
│ │ │ Transformer)│ │ Backbone │ │ Backbone │ │ │
│ │ └──────┬───────┘ └──────┬───────┘ └──────┬───────┘ │ │
│ │ │ │ │ │ │
│ │ └───────────────────┼────────────────────┘ │ │
│ │ ▼ │ │
│ │ 视觉特征 (Visual Features) │ │
│ │ 768-d / 1024-d │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 语言编码器 (Language Encoder) │ │
│ │ │ │
│ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │
│ │ │ LLM │ │ Embedding │ │ Tokenizer │ │ │
│ │ │ (LLama/ │────│ Layer │────│ │ │ │
│ │ │ GPT) │ │ │ │ │ │ │
│ │ └──────────────┘ └──────────────┘ └──────────────┘ │ │
│ │ │ │ │
│ │ 语言特征 (Language Features) │ │
│ │ 4096-d │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 融合层 (Fusion Layer) │ │
│ │ │ │
│ │ 视觉特征 + 语言特征 → Cross-Attention → 融合多模态特征 │ │
│ │ (例如: Perceiver Resampler) │ │
│ │ │ │
│ │ 融合特征 (Multimodal Features) │ │
│ │ 4096-d │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 动作解码器 (Action Decoder) │ │
│ │ │ │
│ │ ┌──────────────────────────────────────────────────────────────┐ │ │
│ │ │ Transformer Decoder / MLP │ │ │
│ │ │ │ │ │
│ │ │ 融合特征 → 动作令牌 (Action Tokens) → 离散/连续动作 │ │ │
│ │ │ │ │ │
│ │ └──────────────────────────────────────────────────────────────┘ │ │
│ │ │ │
│ │ 输出动作: │ │
│ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────────────────┐ │ │
│ │ │ 机械臂末端 │ │ 夹爪开合 │ │ 机器人底座移动 │ │ │
│ │ │ 位置 (x,y,z)│ │ (Open/ │ │ 速度 (vx, vy, vω) │ │ │
│ │ │ Roll,Pitch, │ │ Close) │ │ │ │ │
│ │ │ Yaw │ │ │ │ │ │ │
│ │ └─────────────┘ └─────────────┘ └─────────────────────────┘ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘

四、Agent与具身智能的融合

4.1 Agent与机器人的对应关系

┌─────────────────────────────────────────────────────────────────────────┐
│ 软件Agent vs 具身Agent 对照表 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ 软件Agent 具身Agent(机器人) │
│ ───────── ───────────────────── │
│ │
│ LLM Brain LLM/VLM Brain │
│ │ │ │
│ ▼ ▼ │
│ 工具调用 (Tool Use) ──────► 技能调用 (Skill Execution) │
│ │ │ │
│ ▼ ▼ │
│ API / 函数执行 电机控制 / 关节运动 │
│ │ │ │
│ ▼ ▼ │
│ 输出文本/决策 输出物理动作 │
│ │ │ │
│ ▼ ▼ │
│ 数字世界交互 物理世界交互 │
│ │
└─────────────────────────────────────────────────────────────────────────┘

4.2 Agent赋予机器人的核心能力

┌─────────────────────────────────────────────────────────────────────────┐
│ Agent架构赋能机器人的三大核心能力 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 1. 任务规划能力 (Task Planning) │ │
│ │ │ │
│ │ Agent的思维链(Chain-of-Thought)→ 机器人的任务分解 │ │
│ │ │ │
│ │ 用户: "收拾厨房" │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ LLM推理: │ │
│ │ 1. 先分类物品(餐具、食材、垃圾) │ │
│ │ 2. 餐具→洗碗机 │ │
│ │ 3. 食材→冰箱 │ │
│ │ 4. 垃圾→垃圾桶 │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ 机器人执行: [抓取]→[移动]→[放置] 循环 │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 2. 工具使用能力 (Tool Use) │ │
│ │ │ │
│ │ Agent调用外部工具 → 机器人调用技能库 │ │
│ │ │ │
│ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │
│ │ │ 搜索引擎 │ │ 代码执行 │ │ API调用 │ │ │
│ │ │ (Software) │ │ (Software) │ │ (Software) │ │ │
│ │ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │ │
│ │ │ │ │ │ │
│ │ └───────────────────┼───────────────────┘ │ │
│ │ ▼ │ │
│ │ ┌─────────────────────┐ │ │
│ │ │ 机器人大脑 │ │ │
│ │ └──────────┬──────────┘ │ │
│ │ │ │ │
│ │ ┌─────────────┐ ┌──────┴──────┐ ┌─────────────┐ │ │
│ │ │ 夹爪 │ │ 灵巧手 │ │ 导航系统 │ │ │
│ │ │ (抓取) │ │ (精细操作) │ │ (移动) │ │ │
│ │ └─────────────┘ └─────────────┘ └─────────────┘ │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 3. 自我反思能力 (Self-Reflection) │ │
│ │ │ │
│ │ Agent的结果评估 → 机器人的视觉/触觉反馈修正 │ │
│ │ │ │
│ │ 动作执行 ──► 传感器反馈 ──► 成功/失败判断 ──► 策略调整 │ │
│ │ │ │
│ │ 例如: 抓取失败 → 重新调整抓取姿态 → 再次尝试 │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────┘

4.3 当前Agent+机器人融合的典型范式

范式一:VLM/LLM作为规划器 + RL Policy作为执行器(当前主流)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
LLM/VLM RL Policy 控制器
(规划层) (技能层) (控制层)
│ │ │
▼ ▼ ▼
"拿起红色的 ──► 视觉定位红杯 ──► 末端执行器位姿 ──► 关节控制
杯子" +夹爪指令 (x,y,z,R,P,Y) (PWM)

代表:RT-2, PaLM-E, VoxPoser


范式二:端到端VLA模型(一揽子解决)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
VLA Model (一个大模型)

┌──────────┼──────────┐
▼ ▼ ▼
视觉 语言 动作
编码 编码 解码


电机控制指令

代表:RT-2, π₀ (Physical Intelligence)


范式三:分层技能系统(工业机器人常用)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
任务级 操作级 伺服级
(Task) (Skill) (Servo)
│ │ │
▼ ▼ ▼
"组装产品" 抓取-移动-放置 关节位置/力矩
│ │ │
▼ ▼ ▼
MoveIt! GraspNet 电机驱动器

五、全球知名公司及产品矩阵

5.1 人形机器人公司

公司国家产品核心技术特点定位场景
Figure AI美国Figure 01/02与OpenAI合作、VLA模型通用人形、工业
Tesla美国Optimus (Atlas)FSD芯片复用、纯视觉制造业、仓储
Boston Dynamics美国Atlas (电驱版)全身动态运动、跑酷能力勘探、科研
1X Technologies挪威NEO轻量级、开源模型家庭服务
Agibot中国A1低成本、数据集开源科研、工业
Unitree中国H1/G1开源、运动控制强科研、教育
傅利叶智能中国GR-1通用人形、康复切入医疗康复
宇树科技中国H1全身动态、人形科研、竞技
星动纪元中国星动STAR1端到端VLA通用人形
逐际动力中国CL-1运动控制、地形适应工业巡检

5.2 AI软件/模型公司

公司产品/模型核心技术商业模式
Physical Intelligenceπ₀模型通用机器人策略模型B2B授权
Skild AI通用机器人基础模型跨任务泛化B2B授权
CovariantRFM-1、Covariant Brain仓库机器人AI集成商合作
Google DeepMindRT-1/2/3、GatoVLA模型先驱研究/内部
Stanford (VoxPoser)开源研究LLM+3D场景规划学术开源

5.3 关键合作伙伴关系

┌─────────────────────────────────────────────────────────────────────────┐
│ 具身智能行业关键合作图谱 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ │
│ │ Figure AI │◄────────── 战略合作 ──────────►┌──────────────┐ │
│ │ │ (VLA模型) │ OpenAI │ │
│ └──────┬───────┘ └──────────────┘ │
│ │ │
│ │ ┌──────────────┐ │
│ └────── 战略合作 ───►│ Physical │◄─────── 投资 ─────┐ │
│ │ Intelligence │ │ Amazon │
│ ┌───────────────────►└──────────────┘ │ │
│ │ │ │ │
│ │ │ 投资/合作 │ │
│ ▼ ▼ │ │
│ ┌──────────────┐ ┌──────────────┐ │ │
│ │ 1X │ │ Covariant │◄────────────────┘ │
│ │ Technologies│ │ │ │
│ └──────────────┘ └──────────────┘ │
│ │
│ ┌──────────────┐ ┌──────────────┐ │
│ │ Tesla │ │ Google │ │
│ │ Optimus │ │ DeepMind │ │
│ └──────────────┘ └──────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────┘

六、行业关键术语词典

6.1 核心概念(中英对照+详细解释)

术语英文详细解释
具身智能Embodied AIAI系统具有物理身体,能与环境实时交互。与"离身智能"(仅处理数字数据)相对。核心研究问题:如何在物理世界中实现通用智能。
视觉-语言-动作模型VLA (Vision-Language-Action)同时处理视觉输入、语言指令,输出机器人动作控制信号的模型。代表作:RT-2、π₀。是具身智能的"大脑"核心。
视觉-语言模型VLM (Vision-Language Model)融合视觉编码器和语言模型的AI。能理解图像内容并用语言描述/回答问题。是VLA的基础。代表:GPT-4V、LLaVA。
模仿学习Imitation Learning (IL)从人类演示中学习策略。通过观察Expert的行为轨迹,训练Policy网络模仿。优点:样本效率高;缺点:分布偏移问题。
强化学习Reinforcement Learning (RL)通过环境奖励信号学习最优策略。机器人通过"试错"学会技能。经典算法:PPO、SAC、TD3。缺点:样本效率低。
域随机化Domain Randomization (DR)在仿真环境中随机化物理参数(物体颜色、质量、摩擦力等),使策略泛化到真实世界。核心解决Sim-to-Real差距。
仿真到真实迁移Sim-to-Real将仿真环境训练的策略迁移到真实机器人。关键技术:Domain Randomization、System Identification、Domain Adaptation。
逆运动学Inverse Kinematics (IK)已知末端执行器目标位置,求解关节角度。是机器人运动规划的核心数学工具。常用算法:数值迭代解析解。
正运动学Forward Kinematics已知关节角度,计算末端执行器位置和姿态。相对简单,是IK的逆过程。
灵巧操作Dexterous Manipulation使用多自由度灵巧手(通常20+ DOF)进行精细操作(穿针、装配等)。是具身智能的最高难度任务之一。
视觉伺服Visual Servoing用视觉反馈闭环控制机器人运动。分为:基于图像的(IBVS)和基于位置的(PBVS)。
力控Force Control精确控制关节力矩或末端力的方式。用于精密装配、磨抛等任务。
阻抗控制Impedance Control让机器人表现出类似弹簧-阻尼系统的物理特性,实现柔顺交互。用于人机协作。
SLAMSimultaneous Localization and Mapping同时定位与建图。机器人在未知环境中运动时,同时构建环境地图并确定自身位置。
运动规划Motion Planning在关节空间或任务空间中规划无碰撞的机器人运动轨迹。常用算法:RRT、PRM、CHOMP。
抓取检测Grasp Detection给定物体和场景,计算最优抓取点(位置+姿态)。是机器人操作的基础能力。
技能泛化Skill Generalization一个技能策略能跨不同物体/场景迁移应用。是通用机器人的关键能力。
元学习Meta Learning学会"学习"的能力。能用少量样本快速学会新任务。代表:MAML、RL²。
世界模型World Model能预测动作后物理世界变化的模型。是具身智能的重要研究方向。代表:DeepMind Genie。
ROS/ROS2Robot Operating System机器人操作系统事实标准。提供消息通信、硬件抽象、工具库。是机器人软件开发的基础框架。

6.2 缩写对照表

缩写全称中文
DOFDegree of Freedom自由度
VLAVision-Language-Action视觉-语言-动作
VLMVision-Language Model视觉语言模型
RLReinforcement Learning强化学习
ILImitation Learning模仿学习
IKInverse Kinematics逆运动学
FKForward Kinematics正运动学
SLAMSimultaneous Localization and Mapping即时定位与地图构建
DRCDomain Randomization for Computer域随机化
PolicyPolicy Network策略网络
PPOProximal Policy Optimization近端策略优化
SACSoft Actor-Critic软演员-评论家
TD3Twin Delayed DDPG双延迟DDPG
DDPGDeep Deterministic Policy Gradient深度确定性策略梯度
RFMRobotics Foundation Model机器人基础模型
sim-to-realSimulation to Real仿真到真实迁移
ROSRobot Operating System机器人操作系统
PBVSPosition-Based Visual Servoing基于位置的视觉伺服
IBVSImage-Based Visual Servoing基于图像的视觉伺服

七、当前热门技术与方向

7.1 VLA端到端模型(最热)

英文:End-to-end Vision-Language-Action Model

介绍:用一个大型神经网络直接从"视觉+语言"输入映射到"动作控制"输出。传统方法需要分立的感知/规划/控制系统,VLA将它们统一到一个模型中。

核心优势

  • 端到端优化,避免误差累积
  • 跨任务泛化能力强
  • 可利用大规模数据训练

代表工作

模型机构关键创新
RT-2Google首个VLA模型,用Web数据预训练
RT-2-XGoogle扩展到双臂场景
π₀Physical Intelligence通用机器人策略模型
RFM-1Covariant仓库场景专用VLA
HelixFigureFigure专用的VLA模型
星动STAR1星动纪元中国首个端到端VLA人形

7.2 模仿学习与行为克隆

英文:Imitation Learning / Behavior Cloning

核心思想:让机器人"看"人类示范来学习技能,而非自己从头摸索。

关键数据集

  • RT-1数据集:Google收集的13万台机器人演示数据
  • Bridge Dataset:斯坦福开源的厨房操作数据集
  • DAP Data:ACT等论文使用的遥操作数据

最新进展:ACT(Action Chunking with Transformers)- 用Transformer预测动作序列而非单个动作,显著提高成功率。

7.3 Sim-to-Real域迁移

英文:Sim-to-Real Domain Transfer

核心问题:仿真环境和真实世界存在物理差异(摩擦力、间隙、延迟等),导致仿真中训练的策略在真实机器人上失效。

三大解决方案

┌─────────────────────────────────────────────────────────────────┐
│ Sim-to-Real 三大技术路线 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 1. Domain Randomization(域随机化) │
│ ──────────────────────────────────── │
│ 在仿真中随机化物理参数: │
│ • 物体颜色/形状/质量 │
│ • 摩擦系数/弹性模量 │
│ • 传感器噪声/延迟 │
│ → 策略被迫学会"不依赖精确物理模型" │
│ │
│ 2. System Identification(系统辨识) │
│ ──────────────────────────────────── │
│ 精确测量真实机器人物理参数, │
│ 让仿真器尽量贴近真实物理特性 │
│ │
│ 3. Domain Adaptation(域适应) │
│ ──────────────────────────────────── │
│ 在真实世界中微调策略: │
│ • 在线RL微调 │
│ • 观察分支适配器 │
│ │
└─────────────────────────────────────────────────────────────────┘

7.4 灵巧手与精细操作

英文:Dexterous Manipulation with Anthropomorphic Hands

核心挑战:人手有27个自由度,精细操作需要控制20+关节的手指。

最新进展

  • Shadow Hand:商业化灵巧手,20 DOF
  • LEAP Hand:亚马逊开源的灵巧手
  • Duke Shadow Hand:抓取成功率接近人类水平
  • Tactile Sensing:高分辨率触觉传感器(GelSight)融合视觉

7.5 家庭/室内场景泛化

英文:Home Robot / Indoor Generalization

核心目标:让机器人在非结构化的家庭环境中完成多种任务。

代表性项目

项目机构特点
HomeRobotStanford HCRL开源仿真+真实机器人平台
MOSS上海AI Lab中文家庭场景多模态
ALOHAStanford双手遥操作系统
UMIStanford格斗操作策略学习

八、未来1-2年趋势预测

8.1 关键技术趋势

排名趋势英文预判依据
1VLA模型井喷VLA ExplosionFigure、1X纷纷推出专用VLA,Google RT-3发布
2人形机器人量产Humanoid Mass ProductionFigure 02目标2025交付,Tesla Optimus 2025部署
3家庭场景落地Home Robot Deployment1X NEO主打家庭,Airbot等家用机器人涌现
4触觉感知突破Tactile Sensing IntegrationGelSight等高分辨率触觉传感器商业化
5世界模型应用World Model for RoboticsGenie等视频生成模型转向机器人领域
6多机器人协作Multi-robot Collaboration仓储物流多机器人调度系统成熟
7小样本泛化Few-shot Generalization机器人能用1-5个演示学会新任务

8.2 投资与商业化热点

┌─────────────────────────────────────────────────────────────────────────┐
│ 2025-2026 投资与商业化热点 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ 资金涌入最高领域: │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ ★★★★★ VLA模型 / 通用机器人基础模型 │ │
│ │ ★★★★☆ 人形机器人整机(Figure、Tesla、Agibot) │ │
│ │ ★★★★☆ 仓库/物流机器人(Covariant模式) │ │
│ │ ★★★☆☆ 家庭服务机器人 │ │
│ │ ★★★☆☆ 精密操作(医疗手术、装配) │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │
│ 商业模式成熟度: │
│ ┌─────────────────────────────────────────────────────────────────┐ │
│ │ 已验证:B2B SaaS(AI软件授权给机器人整机厂) │ │
│ │ 验证中:机器人整机销售(工业/科研) │ │
│ │ 探索中:机器人即服务(RaaS) │ │
│ │ 探索中:家庭消费级机器人 │ │
│ └─────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────┘

九、Agent向具身智能扩展的探讨

9.1 必然扩展的逻辑

软件Agent的局限性:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

问题:软件Agent只能处理数字世界
┌──────────────────────────────────────────────────┐
│ │
│ Agent: "帮我订一杯咖啡" │
│ ↓ │
│ 只能:打开App → 下单 → 支付 │
│ ↓ │
│ 但无法:自己去厨房做咖啡 / 去咖啡店取咖啡 │
│ │
└──────────────────────────────────────────────────┘

Agent需要"长出手脚"才能真正服务物理世界
具身智能是Agent的物理升级:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Agent的核心能力 具身扩展形式
──────────────── ────────────────
理解指令(LLM) → 理解+分解物理任务
工具调用 → 调用机器人技能API
反思机制 → 视觉/触觉反馈闭环
记忆 → 技能库+经验记忆
规划 → 运动轨迹规划

本质:让数字世界的Agent具备物理世界的执行能力

9.2 当前融合的典型案例

案例描述技术路线
Figure + OpenAIFigure 01/02集成GPT-4实现自然对话任务分解LLM规划层 + 机器人执行层
1X + OpenAINEO机器人接入GPT-4做家庭任务理解LLM + 机器人技能系统
Amazon + Covariant亚马逊引进Covariant AI技术通用VLA模型 + 仓库场景
腾讯灵犀机器人接入混元大模型做任务规划国产LLM + 机器人控制

9.3 融合路径预测

2024-2025:接口层对接
━━━━━━━━━━━━━━━━━━━━━
LLM Agent ──► Robot API ──► 机器人执行
(云端) (标准化) (边缘)

2026-2027:深度融合
━━━━━━━━━━━━━━━━━━━━━
Agent内置机器人工具调用能力
开发者用同一套API开发"数字Agent"和"具身Agent"

2028+:原生具身Agent
━━━━━━━━━━━━━━━━━━━━━
VLA/LLM统一模型
输入:语音/视觉/传感器
输出:文本决策 + 物理动作
Agent不再区分软件/硬件

9.4 关键挑战

挑战说明当前解法
实时性机器人控制需要毫秒级响应,但LLM推理慢技能库预计算 + 分层推理
安全性物理世界操作不可逆,错误可能伤人安全约束层 + 力控/阻抗控制
物理常识LLM缺乏物理直觉(重力、碰撞)世界模型+物理仿真训练
数据稀缺机器人操作数据远少于文本数据仿真数据合成 + 遥操作采集

十、结论与展望

10.1 核心结论

┌─────────────────────────────────────────────────────────────────────────┐
│ 具身智能行业十大核心结论 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ 1. 具身智能是AI发展的必然阶段——从"数字智能"到"物理智能" │
│ │
│ 2. VLA模型是具身智能的"大脑"核心,RT-2/π₀开创了新范式 │
│ │
│ 3. 人形机器人是具身智能的最佳载体形态(适应人类环境) │
│ │
│ 4. Sim-to-Real是工程瓶颈,Domain Randomization是当前主流解法 │
│ │
│ 5. 机器人行业正在复制NLP的"Scaling Law"——大数据+大模型=通用技能 │
│ │
│ 6. 中国在人形机器人硬件上快速追赶,但在VLA模型上仍有差距 │
│ │
│ 7. Agent与机器人融合是确定性趋势,2025-2026将出现标杆产品 │
│ │
│ 8. 家庭服务场景是最大市场,但技术成熟度最低(5-10年) │
│ │
│ 9. 触觉感知+力控是精细操作的最后一公里,2025年有望突破 │
│ │
│ 10. 世界模型将成为具身智能的新推动力(预测→规划→执行) │
│ │
└─────────────────────────────────────────────────────────────────────────┘

10.2 对从业者的建议

角色建议
研究者深耕VLA/Sim-to-Real/精细操作等核心问题,发表高质量论文
工程师掌握ROS2 + PyTorch + MuJoCo/Isaac Gym仿真工具链
创业者从垂直场景切入(仓库/工业),避免过早进入家庭场景
投资人关注VLA模型公司和具身智能基础设施,而非盲目追人形机器人

10.3 未来展望

"5年内,我们将会看到第一批真正具备通用家务能力的家庭机器人。 10年内,具身智能将重新定义'智能手机'之后的下一个计算平台。 20年内,或许每个人的身边都会有一个具身Agent——它不只是帮你订咖啡, 而是能帮你做饭、洗碗、收拾房间,甚至在你生病时照顾你。"

—— Sergey Levine, 2025


附录:关键资源导航

论文推荐(必读)

论文作者意义
RT-1: Robotics TransformerGoogle RoboticsVLA开山之作
RT-2: Vision-Language-Action ModelsGoogle DeepMind第一个VLA论文
VoxPoserStanfordLLM+3D场景规划
π₀Physical Intelligence通用机器人策略模型
GatoDeepMind通用智能体里程碑
InstructBLIPSalesforce多模态指令微调
ACTStanford动作分块Transformer
DDQGoogle离线RL新SOTA

开源项目推荐

项目链接用途
ROS/ROS2ros.org机器人软件开发框架
Isaac GymNVIDIAGPU加速仿真+RL
ManiSkill上海AI Lab灵巧手操作仿真
RLBenchImperial College机器人任务学习基准
Open Roboticsgithub.comGazebo/MoveIt维护者
PyBulletGoogle开源物理仿真

顶级会议/期刊

会议领域年份
CoRL机器人学习每年
RSS机器人Science每年
ICRA机器人与自动化每年
IROS智能机器人每年
Science Robotics机器人顶刊季刊
IJRR机器人研究顶刊月刊

报告完

撰写者:以Sergey Levine视角撰写 最后更新:2026年4月 数据来源:Wikipedia、行业公开资料、研究论文