登录注册
多模态具身智能大模型MultiPLY
避坑产业链
超短追板的老股民
2024-01-22 22:38:17
Sam Altman认为AGI很快就会降临,但若是没有感官兼备的AI何以称为智能?最近,UCLA等机构研究人员提出多模态具身智能大模型MultiPLY,AI可以知冷知热、辨音识物。

 

来自UMass Amherst、UCLA和MIT-IBM Watson AI Lab研究人员,推出了全新的具身智能大模型MultiPLY。

 

通过智能体与3D环境交互,MultiPLY呈现了大模型多感官能力,无缝地连接了语言、动作和感知!


多感官大模型

多模态大模型,如LLaVA、Flamingo、BLIP-2、PaLM-E,在视觉语言任务中表现出色。然而,它们主要关注2D场景理解,很难对3D环境进行推理和交互。

尽管目前也有关于3D场景理解的大模型研究,但这些LLM缺乏捕捉视觉和语言之外的多感官信息的能力。相比之下,人类通过触摸甜甜圈,能够感知其柔软度和温度,而这种能力远远超出了当前多模态LLM的范围。

若想真正实现AI大佬口中的AGI,那么未来构建多感官的大模型也是必不可少。

但挑战在于,当前缺少训练LLM的多感官交互数据,另外还缺乏对3D场景和物体的多感官信息的正确表示。

通过将场景抽象为以「对象为中心」的表示,并在与对象进一步交互时关注对象细节,人类很轻易就能做到。

对于LLM来说,必须在以对象为中心的表示,以及详细多感官信息之间灵活切换。

为此,研究人员提出了MultiPLY,一种多感官呈现的LLM,可以通过部署由LLM驱动的智能体与3D环境进行交互,从而对以对象为中心的多感官表示进行编码,包括视觉、音频、触觉和温度信息。

Multisensory-Universe数据集

为了训练这种全新的模型,研究人员提出了一个大规模多感官数据集Multisensory-Universe,包含50万条由AI智能体在3D虚拟环境中交互时收集的数据。

这些数据涵盖了多种任务类型,包括多感官描述(multisensory captioning)、问答(question answering)、对话(dialogue)、操作(manipulation)、任务分解(task decomposition)等等。

向3D场景中添加互动对象

具体来说,团队基于Habitat-Matterport 3D(HM3D)语义数据集对场景进行了构建。

HM3D数据集包含了216个三维空间及其内部的3,100个房间,但由于传感器数据不足和种类单一的问题,这些对象无法在Habitatsim环境中进行互动。

为此,研究人员在场景中引入了新的对象,这样智能体就可以利用Habitatsim与它们进行交互了。


触摸汉堡辨冷热,首次拥有类人感官!3D多模态交互具身智能大模型 (baidu.com)



关注多模态AI方向:


万兴科技


苏州科达


力盛体育


汉王科技



作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
万兴科技
S
苏州科达
S
力盛体育
S
汉王科技
工分
6.10
转发
收藏
投诉
复制链接
分享到微信
有用 4
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(3)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    02-16 20:34
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    02-16 20:32
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    01-22 23:30
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 1
前往