具身智能的今生与未来

中欧国际工商学院合一讲堂（2025-11-29），由**高岳**教授主讲。系统解析具身智能（Embodied AI）的技术架构、数据瓶颈、商业化痛点及投资逻辑。

核心定义

具身智能是将多模态输入（视觉、语言、触觉）映射为机器人低维物理动作的VLA（Vision-Language-Action）模型。与传统生成式AI（低维输入→高维输出）相反，具身智能是超高维输入→低维输出，且面临严重的多解性问题（如抓取水杯可以从顶部、侧面或反手抓，解不唯一）。

两大技术流派

架构	代表	优势	劣势
端到端	Google Pi系列	无模块间误差传递	极度消耗数据，遇未见场景易崩溃
大小脑分层	Figure AI、交大	高频控制安全稳定	系统复杂度高

大小脑分层架构：

大脑（大语言模型）：1-5 Hz，负责任务理解与拆解，云端运行
小脑（运动控制）：50-100 Hz，本地部署，强化学习保证不摔倒

大模型的低频响应（1Hz）无法挽救高频失稳（如踩空上楼梯），必须依赖本地高频”小脑”托底。

数据：最大瓶颈

成本

训练通用模型需1亿-10亿条高质量遥操数据。以人工采集（如特斯拉雇人穿动捕服，40美元/小时）计算，纯数据成本40亿-100亿美元。

“鸡头现象”

Pi的机器人叠衣服时抓取失败后手部抽风式重复动作——因为数据集缺乏”失败后如何纠错”的样本。

关键发现

交大测试：1位懂算法的博士生采集1小时数据（含故意掉落、重新抓取等纠错动作），模型效果远好于5位本科生采集5小时的纯成功数据。边缘场景（Corner Case）数据才是决定算法成败的关键。

仿真技术

仿真器	特点	局限
Isaac Sim / MuJoCo	GPU并行加速，支持数千机器人同时训练	把所有物体视为刚体，无法模拟软体操作
Genesis（下一代）	开源，支持软体互动与4D渲染	较新，生态尚在建设中

硬件关键设计

7自由度：物理定位仅需6个，第7个用于避障时的姿态灵活性
串联 vs 并联：串联控制简单但刚度低；并联（如人类小臂双骨）大幅提升刚度和精度
驱动器标准化：特斯拉擎天柱优化至6种标准驱动器以利于量产
驱动器演进：波士顿动力早期采用液压驱动（力量极大，能拉动飞机），后转向电驱

商业化现实

真场景

场景	价值	现状
教育（To-U）	职校/大专采购，提升评级	目前最大现金流来源
3C制造/汽车总装	快速适应新品类螺丝安装	有明确痛点和买单意愿
特种工业	高空/消防/宇航等危险场景	政策支持，但量小

伪需求

养老：高净值客户更需真人服务，且安全隐患极大（机器跌倒/信号干扰起搏器）
泛化通用：多为资本故事，尚无现金流

投资估值逻辑

Figure AI（估值390亿美元）：单台机器人替代4个工人（7×24h），年劳动价值30万美元，收取9.1万美元订阅费，毛利90%。

宇树G1：广告价9.9万元（无灵巧手、仅手柄遥控），科研可用版实际约33万元。

问答精华

黄仁勋”物理AI是生成式AI的10倍”——是否夸大？

需要看商业逻辑：Nvidia的核心利益是卖算力和仿真平台（Omniverse）。鼓吹具身智能市场，是为了吸引所有机器人厂商进入其仿真生态，进而购买GPU算力。Nvidia自身并未大量下场造机器人本体，本质还是”卖铲子”。市场空间确实巨大，但硬件大厂的宣传话术背后有推销算力的核心诉求。

科学家股权如何分配？

科学家主要作用是帮助公司快速试错和技术探索。华为模式值得借鉴：每年投入数��万经费给高校，由高校老师解决内部真实工程难题，自身强大的技术团队负责消化落地。传统企业引入科学家需根据自身技术消化能力来定，避免盲目重资产投入。

传统制造业切入建议

最优：与高校签项目合作（几百万），针对特定痛点定制预研
次优：高薪挖大牛组十人团队（年薪100-500万/人，但易冲击薪酬体系）
最差：出资与外部基金拼盘投资

来源

raw/2025-11-29 中欧合一讲堂-具身智能的今生与未来.md

CEIBS EMBA Wiki

Courses

Professors

Others

具身智能的今生与未来

具身智能的今生与未来

核心定义

两大技术流派

数据：最大瓶颈

成本

“鸡头现象”

关键发现

仿真技术

硬件关键设计

商业化现实

真场景

伪需求

投资估值逻辑

问答精华

黄仁勋”物理AI是生成式AI的10倍”——是否夸大？

科学家股权如何分配？

传统制造业切入建议

相关页面

来源

Graph View

Table of Contents

Backlinks