AI语料: 中文在线,掌阅科技除了DeepSeek那篇官号文章,几乎没太多声音,尤其我看几个专业的AI号甚至都没报道,这属于严重低估了...(或者人家故意不宣传)。总之一句话,DeepSeek v2非常值得重视....为什么被Semianalysis大哥在最新文章中高亮点名,因为真的有点离谱了...简单说,就是下面这张图,DeepSeek v2在能力逼近第一梯队闭源模型的前提下,推理成本降到了1块钱per million token,什么概念,Llama3 70B的七分之一,GPT-4 Turbo的七十分之一....这时肯定有人会问,赔本卖?正如之前那些价格低廉的GPU云....但DeepSeek v2还真有利润。8xH800,实现每秒5万token峰值吞吐,按上述API报价,每节点每小时创造的收入为5万*3600*0.28/1000000=50美元。而8xH800的成本大约每小时15美元,因为可以做更大的batch size(后面会讲,该模型的KV cache占用很低,可以做大batch size),算力的利用率会比较高,假设80%的利用率,对应40美金收入和15美金成本,也就是毛利率62%(里面很多假设变量,不代表最终结果)而从训练来看,H800集群,8卡一个节点,节点内Nvlink,节点间Infiniband。结果来看,8T数据+236B参数,训练使用算力仅为Llama 3 70B的五分之一,GPT-4的二十分之一....且性能上没有很大差距。这是对训练所需计算成本的大幅降低...从训练到推理,算力的节省真的很夸张。如何实现的呢?除了所谓DeepSeek MoE架构(与Snowflake类似),2个共享专家+160个路由expert的前馈网络,看来看去最核心的创新是——Multi-Head Latent Attention:简单来说,之前最常用的MHA、GQA、MQA,都是通过合并Query减少QK计算量从而减少KV cache占用。而MLA做的是将KV cache压缩到Latent vector,极大减少了显存占用,降低到之前MHA架构的5%到13%:是不是有点too good to be true?这种low-rank KV压缩这种方式就没有缺点吗?咨询了下zartbot,可能有过度压缩的问题。相比MHA甚至相比GQA还高得多的压缩比例,损耗多多少少会有。以及引述下Y博士观点:MLA降低了计算复杂度的同时,还提升了模型泛化能力。参考之前Sora对Latent Space patch的高效压缩,实质上都是进一步提取到了更本质的表征。方向肯定是对的,DeepSeek这次的创新真的很值得称赞。当然,海外几个模型大厂比如OAI,估计也有实践,但人家已经是close AI了,幻方这次全开源了...意味着什么?1. 模型架构微创新,单纯从KV cache角度,“绣花”的空间没想到就如此之大...后面类似创新会层出不穷2. 推理降本的速度严重超出预期。过去1年基本6个月降低一个数量级,1年已经降低了2个数量级了....且这是算力没有升级的情况下,考虑到明年GB200部署(推理再降低30倍...),以及你无法预测的架构创新、推理优化、系统升级、甚至推理集群计算架构方面的黑科技(可能又是国内哦...),推理的降本速度不敢想象。3. 利空英伟达?短时间内会看到模型优化造成的算力节省,的确是速度太快了....大于需求撬动的算力增量。但这是个鸡生蛋的关系,成本下降,会撬动应用的诞生和需求的爆发,从而再拉动算力的需求....这中间的因子抵消关系和发展速度太难预测了...有点复杂4. 有一点肯定,准备迎接应用吧。还是假期文章那句话:推理成本会降低2-3个数量级,过去贵到无法用的场景,现在几乎是免费,那推理的需求会如何?顺便说一句,按照OpenAI Jason Wei 1月的帖子,GPT-5的大规模训练如果是1月开始的,那估计今天差不多结束了,可能慢慢有消息放出来。不管能力如何,相信里面的架构创新,以及对计算复杂度的优化,一点不会比国内少。那是否可以合理假设,下一代模型除了能力提升,成本的降低(相对而言)很可能会超出大家的预期。最后还是想感慨一句,人家幻方是真在搞大模型啊...一年前觉得是玩票,没想到,互联网人一个个退出了,反倒二级人坚持到了今天,且走到了一线...国产and二级之光。幻方要感谢韭菜们的贡献,咱们都是通往AGI的砖和瓦...
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。