具身智能的今生与未来

中欧国际工商学院 合一讲堂(2025-11-29),由**高岳**教授主讲。系统解析具身智能(Embodied AI)的技术架构、数据瓶颈、商业化痛点及投资逻辑。

核心定义

具身智能是将多模态输入(视觉、语言、触觉)映射为机器人低维物理动作的VLA(Vision-Language-Action)模型。与传统生成式AI(低维输入→高维输出)相反,具身智能是超高维输入→低维输出,且面临严重的多解性问题(如抓取水杯可以从顶部、侧面或反手抓,解不唯一)。

两大技术流派

架构代表优势劣势
端到端Google Pi系列无模块间误差传递极度消耗数据,遇未见场景易崩溃
大小脑分层Figure AI、交大高频控制安全稳定系统复杂度高

大小脑分层架构:

  • 大脑(大语言模型):1-5 Hz,负责任务理解与拆解,云端运行
  • 小脑(运动控制):50-100 Hz,本地部署,强化学习保证不摔倒

大模型的低频响应(1Hz)无法挽救高频失稳(如踩空上楼梯),必须依赖本地高频”小脑”托底。

数据:最大瓶颈

成本

训练通用模型需1亿-10亿条高质量遥操数据。以人工采集(如特斯拉雇人穿动捕服,40美元/小时)计算,纯数据成本40亿-100亿美元

“鸡头现象”

Pi的机器人叠衣服时抓取失败后手部抽风式重复动作——因为数据集缺乏”失败后如何纠错”的样本。

关键发现

交大测试:1位懂算法的博士生采集1小时数据(含故意掉落、重新抓取等纠错动作),模型效果远好于5位本科生采集5小时的纯成功数据。边缘场景(Corner Case)数据才是决定算法成败的关键

仿真技术

仿真器特点局限
Isaac Sim / MuJoCoGPU并行加速,支持数千机器人同时训练把所有物体视为刚体,无法模拟软体操作
Genesis(下一代)开源,支持软体互动与4D渲染较新,生态尚在建设中

硬件关键设计

  • 7自由度:物理定位仅需6个,第7个用于避障时的姿态灵活性
  • 串联 vs 并联:串联控制简单但刚度低;并联(如人类小臂双骨)大幅提升刚度和精度
  • 驱动器标准化特斯拉擎天柱优化至6种标准驱动器以利于量产
  • 驱动器演进:波士顿动力早期采用液压驱动(力量极大,能拉动飞机),后转向电驱

商业化现实

真场景

场景价值现状
教育(To-U)职校/大专采购,提升评级目前最大现金流来源
3C制造/汽车总装快速适应新品类螺丝安装有明确痛点和买单意愿
特种工业高空/消防/宇航等危险场景政策支持,但量小

伪需求

  • 养老:高净值客户更需真人服务,且安全隐患极大(机器跌倒/信号干扰起搏器)
  • 泛化通用:多为资本故事,尚无现金流

投资估值逻辑

Figure AI(估值390亿美元):单台机器人替代4个工人(7×24h),年劳动价值30万美元,收取9.1万美元订阅费,毛利90%。

宇树G1:广告价9.9万元(无灵巧手、仅手柄遥控),科研可用版实际约33万元

问答精华

黄仁勋”物理AI是生成式AI的10倍”——是否夸大?

需要看商业逻辑:Nvidia的核心利益是卖算力和仿真平台(Omniverse)。鼓吹具身智能市场,是为了吸引所有机器人厂商进入其仿真生态,进而购买GPU算力。Nvidia自身并未大量下场造机器人本体,本质还是”卖铲子”。市场空间确实巨大,但硬件大厂的宣传话术背后有推销算力的核心诉求。

科学家股权如何分配?

科学家主要作用是帮助公司快速试错和技术探索。华为模式值得借鉴:每年投入数���万经费给高校,由高校老师解决内部真实工程难题,自身强大的技术团队负责消化落地。传统企业引入科学家需根据自身技术消化能力来定,避免盲目重资产投入。

传统制造业切入建议

  1. 最优:与高校签项目合作(几百万),针对特定痛点定制预研
  2. 次优:高薪挖大牛组十人团队(年薪100-500万/人,但易冲击薪酬体系)
  3. 最差:出资与外部基金拼盘投资

相关页面

来源

  • raw/2025-11-29 中欧合一讲堂-具身智能的今生与未来.md