阿里云智能计算资深专家既要-韭研公社

登录注册

阿里云智能计算资深专家既要

YONGOD

2023-11-16 23:39:52

阿里云大模型预训练卡总量40000张，包含阿里大模型需求、集团需求、还有外部客户需求。其中H800 3000张，H100没有，A100 6000张，A800大约1.2万张，V100 1.6万张。
折旧年限：高端卡我们都是放在全液冷服务器，还有防尘配套，应该说六年没有问题。液冷IDC技术上是比较成熟的，但是批建到投建使用至少要一年以上时间。算力租赁：Corwave顶层调度这些能力相对优秀，国内算力租赁公司感觉还是屯卡，调度和调优这些软件实际上是没有的，这块壁垒蛮高的。国内有单独做的，比如潞晨科技，有点类似我们的浩天平台，我们有这块能力（能够达到50%，可能比OPENAI还高）但是不好输出，只能自用。所以现在算力租赁边际需求定价，涨价涨到天上也有可能。现在国内收敛到三十多家真正做大模型的，百川智谱字节等等等等，都是至少百亿参数的。
昇腾：做预训练还是比较难，禁售持续的情况下，华为可以通过上下游协同做大昇腾，但我觉得至少得五年，因为他绑定了他的mindspore，而且不支持32位浮点运算，但是阿里腾讯现在都是自己的开发框架，这个是很难迁移的，而且禁售也可能有变化。另外，云厂商也不是普通客户，对迁移这件事儿还是很谨慎。所以国内在五年内我认为英伟达高端算力都是极稀缺资源。对于参数量比较小的模型，华为寒武纪可能都有市场。
我们内部也很纠结，有很多A800和H800订单都没交付，后面估计交付不了了（先货后款）。我们12月初会拿到H20和L20的测试卡。一些野生拿卡渠道是真实的，腾讯去年就搞过，所以挖矿公司能拿卡应该是真的，我们没搞，怕被制裁。
H200性能是H100两倍，HMB有重大升级，所以外挂SSD都会放量。但是光模块不会明显放量，卡间交互光模块明年有可能升级到1.6T或者硅光。现在国内大模型整体都没达到GPT3.5的能力，都是3多一点，国内排序通义第一，最全面，第二是智谱，有些银行项目落地，后面就是百川和百度这些了。
对模型厂商而言，即便算力足够，做大模型的成本也是巨大的，硬件成本占到40%，人力10%，此外就是高昂的运营成本。比如妙鸭相机，训练只用了100张卡，但是运营高峰要用到500张卡，所以他意识到这个必须要限流，于是才会延迟。摩尔线程、沐曦科技等现在在做chiplet封装的AI芯片，也是一种调度和调优的创新。

作者利益披露：转载，不作为证券推荐或投资建议，旨在提供更多信息，作者不保证其内容准确性。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

鸿博股份

中贝通信

恒为科技

工分