登录注册
北京君正,储存芯片龙头企业
长风
超短低吸
2023-04-18 08:34:17

一、AI 带动存力芯片用量快速提升
1.1 AI 带动算力及存力需求快速提升

ChatGPT 是 OpenAI 开发的一款聊天机器人,能够更高层次理解人类需求并解决复杂问 题。ChatGPT 基于 Transformer 架构算法,可用于处理序列数据模型,通过连接真实世 界中大量的语料库来训练模型,可进行语言理解并通过文本输出,做到与真正人类几乎 无异的聊天场景进行交流。 ChatGPT 应用场景广泛,海外已有龙头落地成功案例: 1)文字创意的生成:快速生成文章段落结构。 2)客服系统:与客户更流畅的交流。 3)虚拟人物对话:传统虚拟人物会设定对话标准答案,ChatGPT 能够更自然真实地与人 对话。 4)结合 Office 软件:生成文档、表格、PPT 等。 5)搜索:替代部分搜索需求。 6)咨询领域:提供值得思考或探索的方向。 ChatGPT 海外已有应用方案落地:为 BuzzFeed 提供个性化测试服务以及为 Amazon 解 决工程师技术难题等。

ChatGPT 带动算力需求飙升,存算侧硬件全面增量需求。据 NVIDIA 估算,训练 GPT3,假设单个机器的显存/内存容量足够的前提下,8 张 V100 显卡训练时长预计达 36 年, 1024 张 80GBA100 显卡完整训练 GPT-3 的时长为 1 个月,算力侧硬件需求全面增长。

ChatGPT4 多模态演绎,算力需求进一步激增。ChatGPT4 为多模态模型,使用图像、 视频等多媒体数据进行训练,文件大小远超文字,进一步驱动算力需求飙升。以 LAION5B 图文数据集为例,其包含 58.5 亿个 CLIP 过滤的图像文本数据集,我们认为图像、视 频类训练数据将驱动算力需求进一步飙升。此外,大模型训练需要海量数据传输,由此 将对以服务器交换机为代表的数据传输设备产生更多需求,相关高算力芯片需求量将相 应增长。

高算力时代,Chiplet 助力突破芯片制程瓶颈。在速度方面,采取 3D 封装技术的 chiplet 缩短了线路传输距离,指令的响应速度得到大幅提升,寄生性电容和电感也得以降低, 此外,更多更密集的 I/O 接点数,电路密度提升将提高功率密度。3D 封装由于采用更细 小、更密集的电路,信号传输不需要过多的电信号,从而功耗也会相应降低。

整体来看,ChatGPT 将从算力侧和数据传输端全面带动显卡及高算力芯片需求,由此将 从算力芯片、应用端、存算一体、先进封装、封装设备、IC 载板等多个领域带动硬件市 场增量需求。

1.2 AI 服务器需求快速增长,有望带动存储行业困境修复

根据中商产业研究院数据,2021 年全球服务器出货量达 1315 万台,同比增长 7.8%, 对应全球市场规模达 995 亿美元。根据 Counterpoint 预计,2022 年全球服务器市场规 模有望达到 1117 亿美元,同比增长 17.0%。预计云服务提供商数据中心扩张增长驱动 力主要来自于汽车、5G、云游戏和高性能计算。

AI 服务器渗透率依旧较低,增长空间巨大。根据 TrendForce 数据,截止 2022 年全球搭 载 GPGPU 的 AI 服务器(推理)出货量占整体服务器比重约 1%,同时 TrendForce 预测 2023 年伴随 AI 相关应用加持,年出货量增速达到 8%,2022~2026 年 CAGR 为 10.8%。 根据 TrendForce 数据,2022 年全球 AI 服务器采购中,Microsoft、Google、Meta、AWS 为前四大采购商,合计占比 66.2%。中国地区 ByteDance(字节跳动)采购比例最高, 达到 6.2%。

人工智能已成为解决艰巨业务挑战的首选解决方案。AI 正在为各行各业的企业组织开辟 创新之路,从改善客户服务、优化供应链、获取商业智能,到设计新产品和服务等。NVIDIA 作为 AI 基础架构的先行者,NVIDIA DGX 系统可提供更强大、完整的 AI 平台,将企业 组织的核心想法付诸实践。目前 AI 大规模训练方面,NVIDIA 推出的最新 DGX 系统包括 A100、H100、BasePOD、SuperPOD 四款产品,其中,DGX A100、DGX H100 为英伟达 当前服务于 AI 领域的服务器产品。

H100 采用先进工艺芯片采用台积电 4N 工艺+台积电 CoWoS 2.5D 封装,有 800 亿个晶 体管对比 A100 有 540 亿个晶体管,同时搭载了 HBM3 显存,可实现近 5TB/s 的外部互 联带宽。H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 标准的 GPU,单个 H100 可支持 40Tb/s 的 IO 带宽,实现 3TB/s 的显存带宽。

DGX H100 带来性能的快速飞跃,通过全新张量处理格式 FP8 实现。其中 FP8 算力是 4PetaFLOPS,FP16 达 2PetaFLOPS,TF32 算力为 1PetaFLOPS,FP64 和 FP32 算力为 60TeraFLOPS。在 DGX H100 系统中,拥有 8 颗 H100 GPU,整体系统显存带宽达 24TB/s, 硬件上支持系统内存 2TB,及支持 2 块 1.9TB 的 NVMe M.2 硬盘作为操作系统及 8 块 3.84TB NVMe M.2 硬盘作为内部存储。根据官网信息,NVIDIA DGX H100 对比上一代产 品具有 6 倍的性能及 2 倍的网络速度和高速可扩展性,同时英伟达表示目前新款 DGX H100 已经全面投入生产。

国内华为的昇腾 Atlas 800(型号 9010)训练服务器是基于昇腾 910+Intel Cascade Lake 的 AI 训练服务器,具有高计算密度、高能效比与高网络带宽易拓展、易管理等特点,该 服务器广泛应用于深度学习模型开发和 AI 训练服务场景,适用于公有云、互联网、运营 商等需要大算力的行业领域。AI 处理器昇腾 910 是一款具有超高算力的 AI 处理器,其 最大功耗为 310W,华为自研的达芬奇架构大大提升了其能效比。八位整数精度(INT8) 下的性能达到 640TOPS,16 位浮点数(FP16)下的性能达到 320 TFLOPS。

Atlas 800(型号 9010)训练服务器从配置来看,拥有 8 个昇腾 910 模组,单模组支持HBM2e技术,且拥有32GB容量及1228GB/s传输速度,AI算力达2.24 PFLOPS FP16/1.76 PFLOPS FP16。本地存储支持 2 个 2.5 SATA+8 个 2.5 SAS/SATA 或 2 个 2.5 SAS/SATA+6 个 2.5 NVMe。 AI 服务器带来存力硬件需求快速扩展。根据美光数据测算,人工智能服务器中 DRAM 内 容是普通服务器的 8 倍,NAND 内容将是普通服务器的 3 倍,而大容量及高速率存储器 将是算力数据迭代运算的重要基础。我们认为,人工智能计算量日益增加,对于 AI 服务 器硬件需求将进一步提升。从服务器硬件配置角度,HBM 技术将快速在 AI 服务器中普 及,其价格远高于现有基础服务器配置,未来 AI 服务器需求将带领存储芯片出现量价齐 升的趋势。

1.3 海外龙头减产缩支,国产化存储产业链或将加快布局。

作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者持有相关标的,下一个交易日内可能择机卖出。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
北京君正
工分
3.59
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(2)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-04-18 08:47
    老师辛苦了!
    0
    0
    打赏
    回复
    投诉
  • 1
前往