登录注册
爱特云翔智算中心完成国产GPU百亿级参数AI大模型训练
Zeiss沐木
2023-06-17 15:50:32
由北京智源人工智能研究院(智源研究院)主办的2023北京智源大会6月9日至10日在中关村举行。北京智源大会是人工智能领域综合性内行盛会,紧密围绕人工智能发展前沿与热点问题发表演讲、展开对话。多位图灵奖得主与200位顶尖专家出席,来自30多个国家和地区超过三万名人工智能领域的专业人士齐聚一堂,分享研究成果,交换实践经验,建立联系合作。在大会上,智源发布了包含「悟道・天鹰」(Aquila)语言大模型等完整的悟道 3.0 大模型系列,并进入到了全面开源的新阶段。



智源研究院、天数智芯与爱特云翔共同合作,联手开展基于国产自主通用GPU的大模型AquilaCode-7B项目,通过中文描述来生成可用的C、Java、Python代码以实现高效编码。智源研究院负责算法设计、训练框架开发、大模型的训练与调优,天数智芯负责提供天垓100加速卡、构建算力集群及全程技术支持,爱特云翔基于 “齐云一号”AIDC智算中心,提供算、存、网、安全等基础设施及智能化运维服务。



爱特云翔智算中心根据本次大模型训练需求,进行软硬件配置选型,提供算力集群裸金属、操作系统、云原生环境及软件栈初始化部署,构建天垓100GPU算力服务集群;同时为算力服务集群提供最优收敛比1:1的InfiniBand高性能网络组网,搭建超低延迟分布式存储及对算力节点客户端进行优化;接入公网独享带宽,支持大模型训练所需的样本数据、checkpoint节点、原始中间数据等的海量数据传输;安全方面提供防火墙、操作审计、抗DDOS、终端保护、漏洞扫描、综合智能分析等安全防护;运维方面,基于爱特云翔算力感知平台,提供算、存、网的性能、故障、资源、操作等方面的智能化运维监控,定制化指标配置报警,实现移动端告警前传和故障根因快速定位及相应7*24小时运维保障服务。本次基于智算中心天垓100加速卡算力集群训练的大模型CodeGen(代码生成)AIGC模型项目,成功完成了100B Tokens编程语料、70亿参数量的AquilaCode大模型参数优化工作,实现了87K Tokens/s训练速度,高达95%以上的集群线性加速比,稳定性优异。并且在HumanEval 基准数据集上,以Pass@1作为评估指标,测试结果达到相近参数级别大模型的SOAT水平,训练出来的模型在AI编程能力与国际主流GPU产品训练结果相近。此训练成果通过事实证明,国产GPU产品日臻成熟,足以承担百亿级AI大模型训练任务,打通了国内大模型创新发展的关键“堵点”,对于我国大模型自主生态建设、产业链安全保障具有十分重大的意义。下一步,爱特云翔将与合作伙伴们继续深入合作,基于AIDC“齐云一号”,建设更大规模的天垓100算力集群,承接基于国产GPU的千亿级AI大模型训练的算力服务。进一步夯实我国算力基础,助力人工智能产业自主生态建设。

S威龙股份(sh603779)S
作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
威龙股份
工分
6.98
转发
收藏
投诉
复制链接
分享到微信
有用 7
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(3)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-07-01 09:33
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-06-17 17:42
    拉板
    0
    0
    打赏
    回复
    投诉
  • 1
前往