deepseek幻方大模型国内第一，远超KIMi-韭研公社

登录注册

deepseek幻方大模型国内第一，远超KIMi

小牛拗

2024-05-10 06:38:40

AI语料：中文在线，掌阅科技

除了DeepSeek那篇官号文章，几乎没太多声音，尤其我看几个专业的AI号甚至都没报道，这属于严重低估了...（或者人家故意不宣传）。总之一句话，DeepSeek v2非常值得重视....

为什么被Semianalysis大哥在最新文章中高亮点名，因为真的有点离谱了...简单说，就是下面这张图，DeepSeek v2在能力逼近第一梯队闭源模型的前提下，推理成本降到了1块钱per million token，什么概念，Llama3 70B的七分之一，GPT-4 Turbo的七十分之一....

这时肯定有人会问，赔本卖？正如之前那些价格低廉的GPU云....但DeepSeek v2还真有利润。8xH800，实现每秒5万token峰值吞吐，按上述API报价，每节点每小时创造的收入为5万*3600*0.28/1000000=50美元。而8xH800的成本大约每小时15美元，因为可以做更大的batch size（后面会讲，该模型的KV cache占用很低，可以做大batch size），算力的利用率会比较高，假设80%的利用率，对应40美金收入和15美金成本，也就是毛利率62%（里面很多假设变量，不代表最终结果）

而从训练来看，H800集群，8卡一个节点，节点内Nvlink，节点间Infiniband。结果来看，8T数据+236B参数，训练使用算力仅为Llama 3 70B的五分之一，GPT-4的二十分之一....且性能上没有很大差距。这是对训练所需计算成本的大幅降低...

从训练到推理，算力的节省真的很夸张。如何实现的呢？除了所谓DeepSeek MoE架构（与Snowflake类似），2个共享专家+160个路由expert的前馈网络，看来看去最核心的创新是——Multi-Head Latent Attention：

简单来说，之前最常用的MHA、GQA、MQA，都是通过合并Query减少QK计算量从而减少KV cache占用。而MLA做的是将KV cache压缩到Latent vector，极大减少了显存占用，降低到之前MHA架构的5%到13%：

是不是有点too good to be true？这种low-rank KV压缩这种方式就没有缺点吗？咨询了下zartbot，可能有过度压缩的问题。相比MHA甚至相比GQA还高得多的压缩比例，损耗多多少少会有。以及引述下Y博士观点：MLA降低了计算复杂度的同时，还提升了模型泛化能力。参考之前Sora对Latent Space patch的高效压缩，实质上都是进一步提取到了更本质的表征。方向肯定是对的，DeepSeek这次的创新真的很值得称赞。当然，海外几个模型大厂比如OAI，估计也有实践，但人家已经是close AI了，幻方这次全开源了...

意味着什么？

1. 模型架构微创新，单纯从KV cache角度，“绣花”的空间没想到就如此之大...后面类似创新会层出不穷

2. 推理降本的速度严重超出预期。过去1年基本6个月降低一个数量级，1年已经降低了2个数量级了....且这是算力没有升级的情况下，考虑到明年GB200部署（推理再降低30倍...），以及你无法预测的架构创新、推理优化、系统升级、甚至推理集群计算架构方面的黑科技（可能又是国内哦...），推理的降本速度不敢想象。

3. 利空英伟达？短时间内会看到模型优化造成的算力节省，的确是速度太快了....大于需求撬动的算力增量。但这是个鸡生蛋的关系，成本下降，会撬动应用的诞生和需求的爆发，从而再拉动算力的需求....这中间的因子抵消关系和发展速度太难预测了...有点复杂

4. 有一点肯定，准备迎接应用吧。还是假期文章那句话：推理成本会降低2-3个数量级，过去贵到无法用的场景，现在几乎是免费，那推理的需求会如何？

顺便说一句，按照OpenAI Jason Wei 1月的帖子，GPT-5的大规模训练如果是1月开始的，那估计今天差不多结束了，可能慢慢有消息放出来。不管能力如何，相信里面的架构创新，以及对计算复杂度的优化，一点不会比国内少。那是否可以合理假设，下一代模型除了能力提升，成本的降低（相对而言）很可能会超出大家的预期。

最后还是想感慨一句，人家幻方是真在搞大模型啊...一年前觉得是玩票，没想到，互联网人一个个退出了，反倒二级人坚持到了今天，且走到了一线...国产and二级之光。幻方要感谢韭菜们的贡献，咱们都是通往AGI的砖和瓦...

作者利益披露：转载，不作为证券推荐或投资建议，旨在提供更多信息，作者不保证其内容准确性。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

中文在线

工分