谷歌PaLM-E：处理多模态信息的大模型，多模态AI时代即将来临！将和GPT-4直接竞争！-韭研公社

登录注册

谷歌PaLM-E：处理多模态信息的大模型，多模态AI时代即将来临！将和GPT-4直接竞争！

无名小韭49991216

2023-03-11 14:05:37

为应对新一轮技术竞赛，谷歌还在不断出后手。

这两天，一个名叫PaLM-E的大模型在AI学术圈疯狂刷屏。

它能只需一句话，就让机器人去厨房抽屉里拿薯片。

即便是中途干扰它，它也会坚持执行任务。

PaLM-E拥有5620亿参数，是GPT-3的三倍多，号称史上最大规模视觉语言模型。而它背后的打造团队，正是谷歌和柏林工业大学。

作为一个能处理多模态信息的大模型，它还兼具非常强的逻辑思维。

比如能从一堆图片里，判断出哪个是能滚动的。

还会看图做算数：

PaLM是谷歌在22年发布的语言大模型，它是Pathways架构训练出来的，能通过“思考过程提示”获得更准确的逻辑推理能力，减少AI生成内容中的错误和胡言乱语。

Pathways是一种稀疏模型架构，是谷歌AI这两年重点发展方向之一，目标就是训练出可执行成千上百种任务的通用模型。

ViT是计算机视觉领域的经典工作了，即VisionTransformer。

两者结合后，PaLM-E可以处理多模态信息。包括：

语言

图像

场景表征

物体表征

通过加一个编码器，模型可以将图像或传感器数据编码为一系列与语言标记大小相同的向量，将此作为输入用于下一个token预测，进行端到端训练。

具体能力方面，PaLM-E表现出了比较强的逻辑性。

比如给它一张图片，然后让它根据所看到的做出蛋糕。

模型能先判断出图像中都有什么，然后分成9步讲了该如何制作蛋糕，从最初的磕鸡蛋到最后洗碗都包括在内。

还有根据图片做判断：我能在这条路上骑自行车吗？

模型进行一系列逻辑推断：

1、不能进入

2、除了自行车

3、除了自行车以外都不能进入

4、答案是可以

这和人类思考的过程确实很像了。不仅如此，模型的最强大之处在于，它无需经过预处理，即提前理解环境。它做出判断和回答，完全是基于它自己的“经验”。

研究人员表示，这项成果表现出了很强的正向迁移能力。

在多个领域任务的训练中，PaLM-E的表现都优于单项任务机器人模型。

从openAI的GPT-4模型到谷歌的PaLM-E，说明多模态的时代已经到来！

作者利益披露：原创，不作为证券推荐或投资建议，截至发文时，作者不持有相关标的。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

网达软件

工分

5.98

投诉

复制链接

分享到微信

有用 5

打赏作者

无用

真知无价，用钱说话

0个人打赏

同时转发

只看楼主

热度排序