多模态具身智能大模型MultiPLY-韭研公社

登录注册

多模态具身智能大模型MultiPLY

避坑产业链

超短追板的老股民

2024-01-22 22:38:17

Sam Altman认为AGI很快就会降临，但若是没有感官兼备的AI何以称为智能？最近，UCLA等机构研究人员提出多模态具身智能大模型MultiPLY，AI可以知冷知热、辨音识物。

来自UMass Amherst、UCLA和MIT-IBM Watson AI Lab研究人员，推出了全新的具身智能大模型MultiPLY。

通过智能体与3D环境交互，MultiPLY呈现了大模型多感官能力，无缝地连接了语言、动作和感知！

多感官大模型

多模态大模型，如LLaVA、Flamingo、BLIP-2、PaLM-E，在视觉语言任务中表现出色。然而，它们主要关注2D场景理解，很难对3D环境进行推理和交互。

尽管目前也有关于3D场景理解的大模型研究，但这些LLM缺乏捕捉视觉和语言之外的多感官信息的能力。相比之下，人类通过触摸甜甜圈，能够感知其柔软度和温度，而这种能力远远超出了当前多模态LLM的范围。

若想真正实现AI大佬口中的AGI，那么未来构建多感官的大模型也是必不可少。

但挑战在于，当前缺少训练LLM的多感官交互数据，另外还缺乏对3D场景和物体的多感官信息的正确表示。

通过将场景抽象为以「对象为中心」的表示，并在与对象进一步交互时关注对象细节，人类很轻易就能做到。

对于LLM来说，必须在以对象为中心的表示，以及详细多感官信息之间灵活切换。

为此，研究人员提出了MultiPLY，一种多感官呈现的LLM，可以通过部署由LLM驱动的智能体与3D环境进行交互，从而对以对象为中心的多感官表示进行编码，包括视觉、音频、触觉和温度信息。

Multisensory-Universe数据集

为了训练这种全新的模型，研究人员提出了一个大规模多感官数据集Multisensory-Universe，包含50万条由AI智能体在3D虚拟环境中交互时收集的数据。

这些数据涵盖了多种任务类型，包括多感官描述（multisensory captioning）、问答（question answering）、对话（dialogue）、操作（manipulation）、任务分解（task decomposition）等等。

具体来说，团队基于Habitat-Matterport 3D（HM3D）语义数据集对场景进行了构建。

HM3D数据集包含了216个三维空间及其内部的3,100个房间，但由于传感器数据不足和种类单一的问题，这些对象无法在Habitatsim环境中进行互动。

为此，研究人员在场景中引入了新的对象，这样智能体就可以利用Habitatsim与它们进行交互了。

关注多模态AI方向：

万兴科技

苏州科达

力盛体育

汉王科技

作者利益披露：原创，不作为证券推荐或投资建议，截至发文时，作者不持有相关标的。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

万兴科技

苏州科达

力盛体育

汉王科技

工分

6.10

投诉

复制链接

分享到微信

有用 4

打赏作者

无用

真知无价，用钱说话

0个人打赏

同时转发

只看楼主

热度排序