通过智能体与3D环境交互,MultiPLY呈现了大模型多感官能力,无缝地连接了语言、动作和感知!
多感官大模型
多模态大模型,如LLaVA、Flamingo、BLIP-2、PaLM-E,在视觉语言任务中表现出色。然而,它们主要关注2D场景理解,很难对3D环境进行推理和交互。
尽管目前也有关于3D场景理解的大模型研究,但这些LLM缺乏捕捉视觉和语言之外的多感官信息的能力。相比之下,人类通过触摸甜甜圈,能够感知其柔软度和温度,而这种能力远远超出了当前多模态LLM的范围。
若想真正实现AI大佬口中的AGI,那么未来构建多感官的大模型也是必不可少。
但挑战在于,当前缺少训练LLM的多感官交互数据,另外还缺乏对3D场景和物体的多感官信息的正确表示。
通过将场景抽象为以「对象为中心」的表示,并在与对象进一步交互时关注对象细节,人类很轻易就能做到。
对于LLM来说,必须在以对象为中心的表示,以及详细多感官信息之间灵活切换。
为此,研究人员提出了MultiPLY,一种多感官呈现的LLM,可以通过部署由LLM驱动的智能体与3D环境进行交互,从而对以对象为中心的多感官表示进行编码,包括视觉、音频、触觉和温度信息。
Multisensory-Universe数据集
为了训练这种全新的模型,研究人员提出了一个大规模多感官数据集Multisensory-Universe,包含50万条由AI智能体在3D虚拟环境中交互时收集的数据。
这些数据涵盖了多种任务类型,包括多感官描述(multisensory captioning)、问答(question answering)、对话(dialogue)、操作(manipulation)、任务分解(task decomposition)等等。
具体来说,团队基于Habitat-Matterport 3D(HM3D)语义数据集对场景进行了构建。
HM3D数据集包含了216个三维空间及其内部的3,100个房间,但由于传感器数据不足和种类单一的问题,这些对象无法在Habitatsim环境中进行互动。
为此,研究人员在场景中引入了新的对象,这样智能体就可以利用Habitatsim与它们进行交互了。
触摸汉堡辨冷热,首次拥有类人感官!3D多模态交互具身智能大模型 (baidu.com)
关注多模态AI方向:
万兴科技
苏州科达
力盛体育
汉王科技