登录注册
ASIC芯片进展大超预期,大模型推理并发速度相比GPU翻倍提升
陈年老韭
躺平的站岗小能手
2024-02-20 08:53:54
【天风海外】ASIC芯片进展大超预期,大模型推理并发速度相比GPU翻倍提升,关注ASIC芯片、网络端、边缘推理端相关投资机遇! 事件:2024年2月19日,由谷歌TPU第一代设计者Jonathan Ross所创立的Groq公司正式宣布:新一代LPU(Language Processing Unit),以API形式提供先进的MOE 开源大语言模型 Mistral 8X 7B 的推理,并在多个公开测试中,以几乎最低的价格,相比GPU推理速度翻倍。 我们的判断: 我们在此前2024年9大科技判断即认为“AlphaGo(Synthetic Data、Self play)+LLM重塑大模型架构,计算/成本的最大瓶颈或许不再是内存墙。” Groq的本质即为减少计算中内存调用次数,实现Scale Out,从而实现推理效率的突破。 Groq ASIC芯片在推理端的架构优势进一步显现:根据Groq官网白皮文档,Groq LPU的先进源于其设计理念的独立,部分放弃卷积的设计,专注于矩阵X矩阵计算、矩阵X向量 。芯片的核心是矩阵乘法单元,矩阵引擎通过具有320个元素的向量进行操作。浮点运算中一对字节平面(byte planes)协作产生一个FP16的输出。 芯片的中间是矢量执行模块(VXM,vector execution module)。 Groq ASIC芯片通过放弃灵活性和训练性能获得推理性能大幅提升:其对大模型的定制化编译,大幅提升推理速度, LPU 运行编译后的LLM代码,执行生成AI推理应用程序。编译器提供可预测的工作负载性能和计时。 ASIC芯片在成本优势主要体现在内存:根据Groq创始人采访,与GPU不同,LPU只有一个核心,创始人称之为TISC或时间指令集计算机体系结构。它不需要像GPU那样频繁地从内存重新加载。因此采用SRAM而非昂贵的HBM。目前Groq API推理Mistral的定价低于其它32K 上下文长度GPU 定价。 更多芯片互联势必带来网络架构进一步升级:根据Groq官网白皮书,Groq采用蜻蜓拓扑来完全连接机架内的八个全局节点集,系统中可连接多达145个机架,从而实现超过10000 TSP的总可扩展性,势必带来光模块用量的持续提升。 边缘推理成本时延有望进一步突破,应用有望快速爆发:我们认为相比HBM,SRAM设计下的ASIC芯片有望在边缘端实现更低成本下的快速,灵活的推理,在语音交互,图片和视频生成等场景逐步提供与用户需求匹配的体验,从而带动AI应用进一步快速渗透与迭代。 相关标的 海外科技巨头与应用:微软、谷歌、苹果、Meta、Shopify、Duolingo等 ASIC芯片与芯片互联架构:Amazon、Alchips、关注英伟达/AMD ASIC芯片进展、(计算机组覆盖)寒武纪、(电子组覆盖)澜起科技、芯原股份 交换机与光模块:Broadcomm、Marvel、Coherent、Arista、Fabrinet、(通信组覆盖)旭创、天孚、新易盛 边缘推理:苹果、Meta、TSMC、联想股份 AI应用:万兴科技、当虹科技、中文在线
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
工分
2.73
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(4)
只看楼主
热度排序
最新发布
最新互动
  • 陈年老韭
    躺平的站岗小能手
    只看TA
    02-20 14:36
    轮动格局,要不北京君正不会涨停,炒的应该是SRAM。
    1
    0
    打赏
    回复
    投诉
  • 只看TA
    02-20 14:31
    谢谢老师
    1
    0
    打赏
    回复
    投诉
  • 一颗土豆的烦恼
    明天一定赚的剁手专业户
    只看TA
    02-20 15:30
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 韭久为功
    蜜汁自信的老韭菜
    只看TA
    02-20 09:44
    谢谢分享!
    0
    0
    打赏
    回复
    投诉
  • 1
前往