登录注册
通俗的语言搞明白多模态究竟在炒什么?
韭零后
中途下车的小韭菜
2023-12-11 16:52:46
感谢大家支持,你们喜欢看科普我也挺意外的。
我知道还是有很多朋友不能理解大模型和多模态,这篇文中我将尽可能举一些通俗易懂的例子,详细解释这一新的概念。所有的解释我尽量不涉及专业词汇,用生活中常见的词汇去解释,便于理解。

首先我听到很多声音在讲,“人家谷歌刚出来的技术,怎么大A就那么多公司都有了?肯定是蹭概念!”

要我说,也对也不对,肯定有一部分是蹭的,但不能以偏概全。

我上一篇讲多模态是多类型任务的融合和同时处理,关键词是:多类型、融合、处理。
那么也就是说能做到2个或以上的不同类型任务的融合处理就能算是多模态。(我跟杨幂都算人),所以,多模态与多模态之间是有差别的。

拿大模型打个比方,Chat GPT4 是大模型,文心一言、讯飞星火、天工、盘古,这些也是大模型,允许国外有大模型,就不允许我们国内有大模型吗?只不过大模型之间水平有高低差别而已。大模型与大模型之间是有差别的。

再讲回到多模态,假设某国外多模态产品能同时处理5种不同类型的任务,而我们国内的多模态只能处理2-3种不同类型的任务,那么我们的是不是多模态呢?也是,对吧,只是没那么高级罢了。而且有了技术就有未来能够发展到更高级的可能性,就是有预期,有故事,有想象空间,就是可以参与了。

其实还想举个例子区别一下Gemini和Chat GPT4,GPT4这个学生写得一手好文章,画画也还不错,Gemini这个学生文章写得不咋地,但是他左手画画右手写文章,甚至还能同时给你唱歌,暂时是一个样样都会但学艺不精的样子。

如果看到这你还没理解,我总结一下,多模态包括Gemini、包括国内七七八八的各种多模态。大模型包括GPT、讯飞星火、文心一言、混元、盘古等等。再举个简单粗暴的例子,我们都是人,有的人是大明星、有的人是科学家,有的人只是普通人,人与人之间是有区别的,在这时候你只需要套用这个句式:
(多模态)与(多模态)之间是有区别的!

至于以后谁会发展得更好,我倒是有个建议,去挑那些过去在这个方向本就有积累的公司,举个例子,之前有一款国外的app叫做Annie,她能跟你打视频,通过观察你的表情判断你的情绪,跟你对话,这其实也算多模态了,跟某个曾经火爆的游戏挺像。就汤姆猫嘛……我倒是希望他家早点弄出来猫咪助理。

(那张Gemini的评分图,还是很期待明年的ultra版本)

最后补充一下关于谷歌造假的问题,我倾向于他只是夸大,硬要说造假不过就是涉及虚假宣传,但是他没有这个技术我是不信的,跟AI沟通现阶段没有办法完全使用自然语言,你必须提问得很明确才能得到你想要的答案,我觉得这个是可以理解的。视频里展示的是经过剪辑删掉了部分提示词,然后加速了而已,AI的反应没那么快,不过我们相信AI的反应已经距离这个不远了,因为近期AI实时出图的绘画软件已经有了,反应是很迅速的,算力跟得上的话也不是什么解决不了的问题,得,又绕回到算力了…

彩蛋:
1️⃣为什么那么多看起来不怎么样的公司能有AIGC概念?国外某网站有很多不同的AI软件呀!都是开源的代码,拿过来自己套用就好了,自己开发啥,很多国内的AI绘画那功能一看就是那SD拿过来套个壳,简直不要太明显。所以除了AI绘画以外还有很多各式各样的开源大作,扒下来自己装在本地电脑就可以用自己的显卡跑起来了!从0开始自己开发什么的,不存在,开发不了一点,拿来就用了何必自己开发呢?

2️⃣到底谷歌这玩意和我们这边谁有合作?没有没有没有,除了蓝标能喝到汤以外,别的真没有,都是炒的同概念,不是炒的合作,人家自己公司的高阶技术跟咱们合作啥。
S汤姆猫(sz300459)S S蓝色光标(sz300058)S
作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
汤姆猫
S
蓝色光标
工分
6.93
转发
收藏
投诉
复制链接
分享到微信
有用 8
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(2)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-12-11 23:02
    sodisinei
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-12-11 19:56
    谢谢
    0
    0
    打赏
    回复
    投诉
  • 1
前往