规格:
规模: 共1530亿晶体管,分为8*XCD (计算)
共304个计算单元;4OD (输入输出)
8*HBM3;其中2个XCD垂直堆叠在1个IOD上
AI算力达H100的1.3倍 : TF32:653.7T:
TF16:1307.4T: TF8/INT8:2614.9T
HPC算力达H100的2.4倍 (FP64/FP32)
(显存达H100的2.4倍]: 共192GB;
显存带宽5.3TB/s,为H100的1.6倍;
功耗750W,与H100的700W接近
架构思路变化: CDNA1加速FP64/FP32的HPC任务,CDNA2加强计算密度/显存容量与带宽CDNA3注重统一内存/计算节点内部互联/AI数据格式的性能。
性能表现: MI300X+ROCm6,Llama2 70B推理性能达MI250X+ROCm5的(8倍];单服务器大模型容量为H100 HGX服务器的(2倍]。
市场规模: AMD预计23年全球AI加速器市场规模450亿美元,2027年4500亿美元+;比一年前的300亿美元、1500亿美元大幅上调。
出货量: 台湾电子时报称,2024年AMD MI系列出货量或达[30-40万颗]
[AMD/ROCm作为NVIDIA/CUDA替代方案的逻辑得到验证,价值显现]