北京君正，储存芯片龙头企业-韭研公社

登录注册

北京君正，储存芯片龙头企业

长风

超短低吸

2023-04-18 08:34:17

一、AI 带动存力芯片用量快速提升
1.1 AI 带动算力及存力需求快速提升

ChatGPT 是 OpenAI 开发的一款聊天机器人，能够更高层次理解人类需求并解决复杂问题。ChatGPT 基于 Transformer 架构算法，可用于处理序列数据模型，通过连接真实世界中大量的语料库来训练模型，可进行语言理解并通过文本输出，做到与真正人类几乎无异的聊天场景进行交流。 ChatGPT 应用场景广泛，海外已有龙头落地成功案例： 1）文字创意的生成：快速生成文章段落结构。 2）客服系统：与客户更流畅的交流。 3）虚拟人物对话：传统虚拟人物会设定对话标准答案，ChatGPT 能够更自然真实地与人对话。 4）结合 Office 软件：生成文档、表格、PPT 等。 5）搜索：替代部分搜索需求。 6）咨询领域：提供值得思考或探索的方向。 ChatGPT 海外已有应用方案落地：为 BuzzFeed 提供个性化测试服务以及为 Amazon 解决工程师技术难题等。

ChatGPT 带动算力需求飙升，存算侧硬件全面增量需求。据 NVIDIA 估算，训练 GPT3，假设单个机器的显存/内存容量足够的前提下，8 张 V100 显卡训练时长预计达 36 年， 1024 张 80GBA100 显卡完整训练 GPT-3 的时长为 1 个月，算力侧硬件需求全面增长。

ChatGPT4 多模态演绎，算力需求进一步激增。ChatGPT4 为多模态模型，使用图像、视频等多媒体数据进行训练，文件大小远超文字，进一步驱动算力需求飙升。以 LAION5B 图文数据集为例，其包含 58.5 亿个 CLIP 过滤的图像文本数据集，我们认为图像、视频类训练数据将驱动算力需求进一步飙升。此外，大模型训练需要海量数据传输，由此将对以服务器交换机为代表的数据传输设备产生更多需求，相关高算力芯片需求量将相应增长。

高算力时代，Chiplet 助力突破芯片制程瓶颈。在速度方面，采取 3D 封装技术的 chiplet 缩短了线路传输距离，指令的响应速度得到大幅提升，寄生性电容和电感也得以降低，此外，更多更密集的 I/O 接点数，电路密度提升将提高功率密度。3D 封装由于采用更细小、更密集的电路，信号传输不需要过多的电信号，从而功耗也会相应降低。

整体来看，ChatGPT 将从算力侧和数据传输端全面带动显卡及高算力芯片需求，由此将从算力芯片、应用端、存算一体、先进封装、封装设备、IC 载板等多个领域带动硬件市场增量需求。

1.2 AI 服务器需求快速增长，有望带动存储行业困境修复

根据中商产业研究院数据，2021 年全球服务器出货量达 1315 万台，同比增长 7.8%，对应全球市场规模达 995 亿美元。根据 Counterpoint 预计，2022 年全球服务器市场规模有望达到 1117 亿美元，同比增长 17.0%。预计云服务提供商数据中心扩张增长驱动力主要来自于汽车、5G、云游戏和高性能计算。

AI 服务器渗透率依旧较低，增长空间巨大。根据 TrendForce 数据，截止 2022 年全球搭载 GPGPU 的 AI 服务器（推理）出货量占整体服务器比重约 1%，同时 TrendForce 预测 2023 年伴随 AI 相关应用加持，年出货量增速达到 8%，2022~2026 年 CAGR 为 10.8%。根据 TrendForce 数据，2022 年全球 AI 服务器采购中，Microsoft、Google、Meta、AWS 为前四大采购商，合计占比 66.2%。中国地区 ByteDance（字节跳动）采购比例最高，达到 6.2%。

人工智能已成为解决艰巨业务挑战的首选解决方案。AI 正在为各行各业的企业组织开辟创新之路，从改善客户服务、优化供应链、获取商业智能，到设计新产品和服务等。NVIDIA 作为 AI 基础架构的先行者，NVIDIA DGX 系统可提供更强大、完整的 AI 平台，将企业组织的核心想法付诸实践。目前 AI 大规模训练方面，NVIDIA 推出的最新 DGX 系统包括 A100、H100、BasePOD、SuperPOD 四款产品，其中，DGX A100、DGX H100 为英伟达当前服务于 AI 领域的服务器产品。

H100 采用先进工艺芯片采用台积电 4N 工艺+台积电 CoWoS 2.5D 封装，有 800 亿个晶体管对比 A100 有 540 亿个晶体管，同时搭载了 HBM3 显存，可实现近 5TB/s 的外部互联带宽。H100 是首款支持 PCIe 5.0 的 GPU，也是首款采用 HBM3 标准的 GPU，单个 H100 可支持 40Tb/s 的 IO 带宽，实现 3TB/s 的显存带宽。

DGX H100 带来性能的快速飞跃，通过全新张量处理格式 FP8 实现。其中 FP8 算力是 4PetaFLOPS，FP16 达 2PetaFLOPS，TF32 算力为 1PetaFLOPS，FP64 和 FP32 算力为 60TeraFLOPS。在 DGX H100 系统中，拥有 8 颗 H100 GPU，整体系统显存带宽达 24TB/s，硬件上支持系统内存 2TB，及支持 2 块 1.9TB 的 NVMe M.2 硬盘作为操作系统及 8 块 3.84TB NVMe M.2 硬盘作为内部存储。根据官网信息，NVIDIA DGX H100 对比上一代产品具有 6 倍的性能及 2 倍的网络速度和高速可扩展性，同时英伟达表示目前新款 DGX H100 已经全面投入生产。

国内华为的昇腾 Atlas 800（型号 9010）训练服务器是基于昇腾 910+Intel Cascade Lake 的 AI 训练服务器，具有高计算密度、高能效比与高网络带宽易拓展、易管理等特点，该服务器广泛应用于深度学习模型开发和 AI 训练服务场景，适用于公有云、互联网、运营商等需要大算力的行业领域。AI 处理器昇腾 910 是一款具有超高算力的 AI 处理器，其最大功耗为 310W，华为自研的达芬奇架构大大提升了其能效比。八位整数精度（INT8）下的性能达到 640TOPS，16 位浮点数（FP16）下的性能达到 320 TFLOPS。

Atlas 800（型号 9010）训练服务器从配置来看，拥有 8 个昇腾 910 模组，单模组支持HBM2e技术，且拥有32GB容量及1228GB/s传输速度，AI算力达2.24 PFLOPS FP16/1.76 PFLOPS FP16。本地存储支持 2 个 2.5 SATA+8 个 2.5 SAS/SATA 或 2 个 2.5 SAS/SATA+6 个 2.5 NVMe。 AI 服务器带来存力硬件需求快速扩展。根据美光数据测算，人工智能服务器中 DRAM 内容是普通服务器的 8 倍，NAND 内容将是普通服务器的 3 倍，而大容量及高速率存储器将是算力数据迭代运算的重要基础。我们认为，人工智能计算量日益增加，对于 AI 服务器硬件需求将进一步提升。从服务器硬件配置角度，HBM 技术将快速在 AI 服务器中普及，其价格远高于现有基础服务器配置，未来 AI 服务器需求将带领存储芯片出现量价齐升的趋势。

1.3 海外龙头减产缩支，国产化存储产业链或将加快布局。

作者利益披露：原创，不作为证券推荐或投资建议，截至发文时，作者持有相关标的，下一个交易日内可能择机卖出。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

北京君正

工分