登录注册

“AI+机器人”下一波浪潮：具身智能产业前瞻

水复花明

只买龙头的游资

2024-02-26 12:33:52

近期，英伟达宣布成立新的研究部门—“GEAR”全称为通用具身智能体研究（Generalist Embodied Agent Research），专注通用具身智能体研究。

新部门由 AI 高级研究科学家， AI 代理计划的负责人 Jim Fan 和 Yuke Zhu 教授共同领导，旨在构建适用于虚拟与物理世界的具身智能体的基础模型，致力于实现跨多模态、多场景的智能应用。

英伟达在智能机器人领域的布局围绕着大模型、数据、开发平台三大核心领域展开，终极目标为打造机器人底层开发生态，抢占产业链价值制高点并赋能其他主机厂、加速产业落地。

此外，英伟达将于3月18-21日举办 GTC 2024 大会，会上将发布加速计算、生成式 AI 以及机器人领域的最新突破性成果。

GTC（GPU 技术大会）是全球公认的顶级 AI 盛会，有着 “年度 AI 风向标”之称，是英伟达每年最重要的发布平台之一。自黄仁勋在 2014 年 GTC 主题演讲中首次强调机器学习以来，英伟达一直走在 AI 革命的最前线。本届 GTC 大会是五年来的首届线下 GTC，两大焦点话题是生成式 AI、机器人。

英伟达CEO黄仁勋 2023 年 5 月提出“人工智能的下一个浪潮是具身智能”。根据黄仁勋的描述，新型人工智能--“具身人工智能”，即能够理解、推理并与物理世界互动的智能系统。

相比传统的工业机器人、协作机器人等，具身智能机器人有着智能化程度高、工作场景限制小、能够自主规划复杂工作的特点，成为国内外科技巨头和科研机构的兵家必争之地。

在特斯拉召开2023年年度股东大会上，马斯克展示了人形机器人Optimus的全新型号，和具身智能机器人几乎划等。马斯克表示，人形机器人将是今后特斯拉主要的长期价值来源。

随着当前人工智能浪潮的爆发，以及全球“机器换人”进程加速，人形机器人有望深入各细分消费端，成为AI下一个重要落地应用场景。

长远来看，未来具身智能+人形机器人或将成为通用人工智能的演进方向。

具身智能行业概览

根据“视觉求索” 文章，朱松纯教授将 AI 归纳为六大子领域：

1）计算机视觉（包含模式识别，图像处理等）；

2）自然语言理解与交流（包含语音识别合成、对话）、

3）认知与推理（包含物理和社会常识）；

4）机器人学（机械、控制、设计、运动规划、任务规划等）；

5）博弈与伦理（多代理人 agents 的交互、对抗与合作等）；

6）机器学习（统计建模、分析工具和计算方法）。

人工智能是很多概念的总和，其中有些概念很难被测量和验证，例如让机器理解什么是社会、什么是责任，虽然能输出一个表征，但很难检验机器是否真正理解这些概念，因此可在一些可验证、可测量的概念上做出一个闭环，而具身智能刚好是这样的闭环，是迈向通用智能很好的起点。

具身智能是指像人一样能与环境交互感知，自主规划、决策、行动、执行能力的机器人或仿真人，又可称之为“具身智能机器人”。

它的实现包含了人工智能领域内诸多的技术，例如计算机视觉、自然语言处理、机器人学等。

总的来说，具身智能机器人首先要能够听懂人类语言；其次分解任务，规划子任务，移动中识别物体，与环境交互，最终完成相应任务。

具身智能机器人涉及到众多的学科，如，软件工程、自然语言处理、物理学（仿真）、生物医学等。多个学科最终汇聚为宏大的系统，共同推动具身智能机器人进一步发展。

具身智能与非具身智能的区别在于能够从环境交互中自主学习，并产生对客观世界的理解与改造，不依赖人工进行的数据标注。

1950 年，图灵在他的论文《Computing Machinery and Intelligence》中首次提出具身智能的概念。

在此后几十年里，具身智能作为很重要的概念，并没有取得很大的进展，因为当时的技术还不足以支撑其发展。

到了今天，多学科的技术已经改变了这一局面。具身智能的研究已广泛拓展到教育、材料、能源等领域, 成为未来新一代人工智能理论与应用突破的一个重要窗口。

具身智能跨智能科学多个方向：

清华大学刘华平教授等人在《基于形态的具身智能研究: 历史回顾与前沿进展》中总结了海内外多方面研究后提出：具身智能（Embodiedintelligence）相对于离身智能（Disembodied intelligence）更侧重关注“交互”, 即智能受脑、身体与环境协同影响, 并由身体与环境相互作用中, 通过信息感知与物理操作过程连续、动态地产生。

具身智能未来可望获得突破的发展方向包括形态涌现、感知进化、物理实现、多体协同等。

刘教授等人也强调，尽管具身智能很重要，其有着自身的局限性，与离身智能的紧密结合才是实现通用智能的必由之路。

斯坦福大学计算机科学教授李飞飞认为，具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能。而交互最直接的障碍在于，人们严重依赖手写代码来控制机器人。

基于形态的具身智能的体系架构：

上海交通大学卢策吾教授在机器之心 AI 科技年会上发表主题演讲《具身智能》，提出 PIE 方案，认为具身智能包括 3 个模块：

具身感知（Perception）、具身想象（Imagination）和具身执行（Execution）。

1、具身感知：包括全概念感知和具身交互感知。

全概念感知是指能够知道我们所操作的这个世界模型（world model）的各种各样的知识，与操作相关的知识，包括外形、结构、语义，以及 48 个真实世界关节体类别等等。

2、具身想象：具备了感知的素材，下一步是确定怎么做。

上海交通大学做了名为 RFUniverse 的仿真引擎，该仿真引擎支持 7 种物体（比如关节可移动的、柔性的、透明的、流体的……）、87 种原子操作的仿真。

还成功探索了从看视频到机器人的行为：给机器人看 50 个场景，看完后就会在仿真引擎中去尝试类似的事情，尝试完之后再迁移到真机上。另外，这套思路还可以放到人体的康复上面，去做医疗看护机器人。

3、具身执行：想象与真实操作之间是有差距的。

PIE方案中希望建一个元操作库，就能调用各种元操作来解决实际操作问题。

目前有三个领域在做这件事情：计算机视觉、机器人学和计算机图形学。

02 具身智能产业机会前瞻

具身智能有望打开 AI 新空间，引领人工智能下一站浪潮。

实现具身智能需要多个学科的交叉能力。当前具身智能产业链中包括数字基础设施、机器人制造、机器视觉、多模态大模型的厂商等相关环节投资机会值得重点关注。

机器人制造：为具身智能提供了机械的身体和基本的运动控制。

深度学习：该学科中的神经网络仍然是具身智能中主要的工具。为具身智能提供推理能力；强化学习，从环境反馈中，帮助具身智能调优模型。

多模态：计算机视觉，为具身智能提供处理视觉信号能力；语音与自然语言处理，为具身智能提供理解与对话能力，实现与人类交互。

计算机图形学：其开发的物理仿真环境给具身智能提供了真实物理世界的替代，加快了学习的速度并降低了成本。

认识科学：帮助具身智能理解人类，构建认识与价值。

03

具身智能机器人：AI终极载体

具身智能的出现有望持续引领“大模型+机器人”潮流。

具身智能机器人是具身智能的实体形态，有望成为 AI 的最终载体。

其整体架构由感知层、交互层、运动层组成：

工业机器人主要根据控制系统发出的指令信号控制机器人主体完成任务，主要依赖于机器人的执行层。

与工业机器人不同，具身智能机器人若能像人一样与环境交互、感知、决策、完成任务，将不得不提升感知层和认知层的能力。

因此，感知层和认知层是工业机器人向具身智能机器人迈进的门槛。

感知层

感知层类似人的五官，负责收集环境信息，在单一场景下机器或许可以通过感知来绕过决策控制。

感知层中视觉的重要程度较高，视觉感知或是具身智能机器人的核心。

从人体的感官来看，80%的信息获取来自于视觉，根据仝人智能吴易明博士分析，感知层面的核心在于视觉感知，主要原因：

感知层需要与运动层交互印证：首先视觉感知需要与物理实存进行交互印证，是具身智能实现的基础。

感知能力提升可使机器人运动更加“拟人化”：视觉感知通过与运动系统的执行参量、信息数据交互修正，使具身机器人从传统的僵化肢体运动提升为为高自由度、高精密、多表现形式的运动。

机器视觉和多态语言大模型的快速迭代有望大幅提升机器人的感知能力和认知能力。

交互层

决策交互层作为核心处理枢纽，需要类似人类大脑的处理能力，满足机器在理解指令、分解任务、规划子任务、识别物体完成人机交互和环境交互等方面的需求，多维度的人机交互在传统的机器人领域是一大难题。

因而当下的研究更多体现在特定指令下对于环境交互的探索，也即如何更智能地执行特定物理任务上。

GPT-4 出现让机器人对于现实世界中图像、文字、数据的理解进入新台阶。

根据微软最新的一项研究，将GPT拓展至机器人领域，实现语言控制机械臂、无人机等多个平台。

多模态的引入拓展了交互的丰富性，大幅提升人机交互和环境交互能力，助力机器人能力再上新台阶。

未来有望在更多场景落地应用，包括自动驾驶、工业自动化、医疗健康、家用服务、教育、娱乐等众多领域，帮助人类实现极端环境作业、多领域降本增效。

可进一步关注目前可用大模型进行改造的硬件机器人类型及应用场景。

包括以对话为主的服务机器人、工业机器人和复杂场景下的人形机器人。

特斯拉推出的人形机器人Optimus、波士顿动力的Atlas和Spot就具备接近具身智能的能力。

它们可以通过机器人的身躯来模拟人类或动物的行为和动作，更加逼真地与人类进行互动。

算法侧来看，特斯拉的Dojo AI超级计算机项目用于加速训练和推理具身智能模型，英伟达的多模态VIMA可以驱动机器人识别物体并做出动作。

从远期潜在需求量来看，具身智能机器人在制造业、家政服务、商业服务等多个领域均有潜在需求，未来具身智能机器人的需求量将远多于目前工业机器人的需求量。

随着技术的突破带来性价比提高，未来具身智能渗透率有望加速提升，行业想象空间巨大，千亿蓝海有望开启。

更长远来看，未来具身智能+人形机器人或将成为通用人工智能的演进方向。

04 多模态大模型：AI核心发展趋势

当前AI模型从单模态向多模态演进，有望实现认知智能，是AI未来发展的明确趋势。

当前以Open AI的文生视Sora、谷歌Gemini大模型和Pika为代表的AI多模态模型加速突破，或推动大模型应用领域加快落地并打开商业化空间。

具身智能作为人工智能重要应用，需要多复合型的模型能力。

阿里巴巴张勇表示制造业是 AI 大模型的重要战场，未来10年最大的机会就在于云、AI 与物理世界机器的融合。

除了诸如视觉、自然语言处理等单领域模型的纵深发展，多模态大模型的加持或将成为下一步重要的应用方向。

AIGC 为具身智能突破技术瓶颈提供新思路。

AIGC的“智能”表现在能够进行上下文理解和情景感知，输出文字、图像、声音。

进入AIGC时代后，GPT等大模型有望作为人类与机器人沟通的桥梁。即通过将图像、文字、具身数据联合训练，并引入多模态输入，增强模型对现实中对象的理解，帮助机器人处理具身推理任务。

AI大模型浪潮下，全球巨头均发力探索AI大模型与具身智能的融合。

目前，诸多大厂已在具身智能领域进行布局，谷歌发布史上最大通才模型 PaLM-E；微软探索如何将 ChatGPT 扩展到机器人领域；阿里巴巴-千问大模型正在实验接入工业机器人等。

PaLM-E 可以执行长跨度的任务：

让大模型成为机器人的 “大脑”，并基于自然语言实现机器人控制，或将成为未来热门的研究方向。

前微软全球执行副总裁陆奇博士在演讲中提到，在我们当前所处的“模型”新范式后，下个范式“行动”范式，是以自动驾驶、机器人和空间计算组合的物理空间中革新范式。所以继 LLM（大语言模型）后的下一个范式必然是机器人，从当下的时间节点看，硬件实体机器人也是大模型的重要落地场景。

05 英伟达机器人部分合作伙伴梳理

据不完全统计，英伟达在机器人领域与九号公司、奥比中光、QT Company、DriveU、追觅科技、宇树科技等有直接/间接合作。

九号公司与英伟达 Isaac Sim 平台合作自主移动机器人底盘。早在2023年5月的中国台北国际电脑展(COMPUTEX)上，英伟达CEO黄仁勋就发布的多款产品，其中便包括面向仓储物流AGV领域的全新自主移动机器人平台Isaac AMR(Autonomous Mobile Robot)，而为该款机器人平台提供底层智慧移动能力支撑的正是九号机器人移动平台RMP Lite 220，同时由九号机器人负责整车集成。

奥比中光专注 3D 视觉感知业务。作为英伟达机器人业务的核心合作伙伴、绑定巨头+卡位视觉&算力、将 3D 相机集成到英伟达新版 NVIDIA Isaac Sim 平台，有望卡位机器人视觉闭环。此外，公司已与优必选、斯坦德、云迹科技、高仙机器人等多家机器人客户达成业务合作。

博杰股份为英伟达提供板卡制程工艺服务，收购哈挺，哈廷是全球三大磨床之一，能够提供丝杠制备的磨床、车床；科瑞思主要产品为绕线设备，和博杰股份同一实控人。

目前NVIDIA Isaac和Jetson平台等被超过120万名开发人员和10000名客户以及合作伙伴所使用。波士顿动力公司、Collaborative Robotics、Covariant、Sanctuary AI、宇树科技都是基于英伟达的机器人成果。

此外，国内众多人形机器人整机厂商基于软件生态以及特有的多元化应用场景优势，将加速产品落地进程；产业链形成为核心零部件、设备商带来增量需求。

机器人产业链全球分工有望形成：