登录注册
阿里云智能计算资深专家既要
YONGOD
2023-11-16 23:39:52

阿里云大模型预训练卡总量40000张,包含阿里大模型需求、集团需求、还有外部客户需求。其中H800 3000张,H100没有,A100 6000张,A800大约1.2万张,V100 1.6万张。
折旧年限:高端卡我们都是放在全液冷服务器,还有防尘配套,应该说六年没有问题。液冷IDC技术上是比较成熟的,但是批建到投建使用至少要一年以上时间。        算力租赁:Corwave顶层调度这些能力相对优秀,国内算力租赁公司感觉还是屯卡,调度和调优这些软件实际上是没有的,这块壁垒蛮高的。国内有单独做的,比如潞晨科技,有点类似我们的浩天平台,我们有这块能力(能够达到50%,可能比OPENAI还高)但是不好输出,只能自用。所以现在算力租赁边际需求定价,涨价涨到天上也有可能。现在国内收敛到三十多家真正做大模型的,百川智谱字节等等等等,都是至少百亿参数的。
昇腾:做预训练还是比较难,禁售持续的情况下,华为可以通过上下游协同做大昇腾,但我觉得至少得五年,因为他绑定了他的mindspore,而且不支持32位浮点运算,但是阿里腾讯现在都是自己的开发框架,这个是很难迁移的,而且禁售也可能有变化。另外,云厂商也不是普通客户,对迁移这件事儿还是很谨慎。所以国内在五年内我认为英伟达高端算力都是极稀缺资源。对于参数量比较小的模型,华为寒武纪可能都有市场。
我们内部也很纠结,有很多A800和H800订单都没交付,后面估计交付不了了(先货后款)。我们12月初会拿到H20和L20的测试卡。一些野生拿卡渠道是真实的,腾讯去年就搞过,所以挖矿公司能拿卡应该是真的,我们没搞,怕被制裁。          
H200性能是H100两倍,HMB有重大升级,所以外挂SSD都会放量。但是光模块不会明显放量,卡间交互光模块明年有可能升级到1.6T或者硅光。现在国内大模型整体都没达到GPT3.5的能力,都是3多一点,国内排序通义第一,最全面,第二是智谱,有些银行项目落地,后面就是百川和百度这些了。
对模型厂商而言,即便算力足够,做大模型的成本也是巨大的,硬件成本占到40%,人力10%,此外就是高昂的运营成本。比如妙鸭相机,训练只用了100张卡,但是运营高峰要用到500张卡,所以他意识到这个必须要限流,于是才会延迟。摩尔线程、沐曦科技等现在在做chiplet封装的AI芯片,也是一种调度和调优的创新。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
鸿博股份
S
中贝通信
S
恒为科技
工分
6.97
转发
收藏
投诉
复制链接
分享到微信
有用 5
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(3)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-11-17 13:04
    。摩尔线程、沐曦科技等现在在做chiplet封装的AI芯片,也是一种调度和调优的创新。
    0
    0
    打赏
    回复
    投诉
  • 1
前往