【转载】Groq推理芯片专家解读-韭研公社

登录注册

【转载】Groq推理芯片专家解读

江天歌

航行五百年的站岗小能手

2024-02-20 23:11:18

2024-2-20大模型Groq推理芯片专家解读会议

民生电子

Q&A

Q：Groq的LPU和传统的GPU有哪些关键差异？在推理芯片市场上，Groq的LPU性能提升和成本情况如何？

A：Groq的LPU实际上是一个针对AI算法设计的DSA（领域特定加速器），与典型的如谷歌TPU相似，其架构与英伟达的GPU有显著不同。它的设计并未脱离传统CMOS工艺，并采用了与传统内存相连的SM（StorageMemory）架构，而非使用新型存储器设计。不同之处在于，Groq采用了一种基于内嵌的SRAM架构进行存储，代替了传统的cache系统和HBM（高带宽内存）。然而，这种设计并非创新突破，众多其他公司也使用类似的内部存储方式，如百度昆仑芯和英国的GraphCore。Groq的存储容量并不是最大的，但其架构非常适合大模型计算，尤其是大型语言模型，拥有较宽的数据流格式和向量计算。Groq的LPU从架构和编程方式上更加适合大语言模型的计算需求，提供了友好的编程模式，适应目前大语言模型的需求。Groq对LPU进行了优化调整，目前能够提供高达500Trillionoperations per second的性能。

Q：Groq这样设计的LPU存储量为何这么大，采用这样的设计其成本和价格如何？

A：虽然Groq的存储量并不是市面上最大的，但其230或240兆字节的全局共享SM便于编程，因为可以视为一整块内存，而不是多块分散的SM。这让编程相对简单，因为不需要在多个小块间做过多的优化工作。从工艺流派来看，Groq采用的是基于传统CMOS工艺的存储器设计，与新型存储器工艺相比，传统CMOS更加成熟、广泛采用，并且制造商和生产链也更为丰富和完善。这意味着从设计到制造成本都会相对较低，能够更容易地找到代工和进行批量生产。总体来说，Groq的这种设计选择可以使其成本控制更为有效，并有助于其推理芯片在市场中的竞争力。

Q：请介绍大模型Groq芯片的架构特点。

A：Groq芯片在架构上有几种不同的形式，包括称为净存计算和存内计算的类型。净存计算中,计算电路被放置于存储器中，例如至纯科技和后膜智能等都采用了这种被称为纯列计算的形式。另外，还有一种叫做进程计算的形式，HBM（HighBandwidthMemory）是进程计算的一个典型例子，它将原本放置在芯片外部的设计集成到了芯片内，这样能够减小延时，并大幅提高带宽。此外，有两种实现芯片内部进程计算的方式，一是基于SM（StreamingMultiprocessors）的设计，二是基于cache的设计。比如CPU和GPU内部通常都会有大容量的cache。而GPU相比之前在cache容量上有了增加，从原先的16MB、24MB、32MB增加到了96MB或者128MB。DSA（Domain-SpecificArchitectures）几乎都采用了基于SRAM的设计，例如含光800使用了256MB，英特尔的Graphcore使用了780MB。不同的架构会导致价格和性能上的差异，比如Groq芯片，有着144MB或244MB不等的容量，并且架构也不同，这使得它们的性能竞争力很强。举例来说，谷歌已经在其云服务中大规模采用Groq芯片，甚至超过了GPU的使用量。

Q：关于Groq芯片的成本与性能比如何评估？

A：Groq创立之后，其芯片的成本较高，但性能上却能够达到每秒500个科分数（GFLOPS）的运算能力。在考虑其性能的前提下，要计算这种大模型Groq芯片的成本，我们需要比较它与其他主流方案，比如英伟达芯片的成本性价比。性能上，Groq芯片既有竞争力，又显示出了其在高性能计算领域的可靠性。尤其是在谷歌云服务的使用情况中，Groq芯片的采用量已经超过了传统的GPU，表明其性价比是得到市场认可的。对于投资决策来说，考虑Groq芯片的成本和性能指标是至关重要的，以此来评估其在市场中的潜在影响力和投资回报率。

Q：Groq芯片在处理大模型时是否存在性能或成本上的问题？

A：从我们的推算中，如果以拉马70B大模型为例，其模型需要至少100GB的内存，按照Groq的计算速度，需要500多块芯片才能运行这样的大型模型，这个数字非常夸张。相对地，NVIDIA只需要一块IP100就可以处理，如果部署，NVIDIA使用的是HGX平台，8张卡每张196GB，合计约为1600GB。成本上，Groq的单芯片面积较大，大概720平方毫米14纳米，翻译成7纳米可能在400平方毫米以下，但英伟达是820平方毫米。因此，Groq的单芯片成本至少为英伟达的一半。但实际的产品定价和利润率可能有所不同，NVIDIA单芯片成本在2000美元左右，而Groq的芯片售价可能在2000到3000美元。据我们了解，Groq宣称自己的售价可以覆盖成本，即使它的利润率很低，但并非亏本。

Q：Groq芯片在大模型处理方面存在哪些潜在的改进空间？

A：Groq的架构可能需要一些改进才更适合大模型。如果它采用像TPU那样支持HBM的架构，它的成本可能会大幅降低，同时速度可能还会提高。这是因为不需要使用500张卡来运算，可能改用8张卡即可。这样，如果增加了HBM，Groq与NVIDIA的性能对比可能接近1：1。当前Groq需要用500块芯片来匹配NVIDIA的16块芯片性能。但如果以成本25万美元对比NVIDIA的16万美元，Groq的成本还是高一些。干预下一代芯片可能会添加外置的存储以减少所需芯片数量，从而减少成本。目前Groq的卡可能销售价在5000美金，但成本可能在2000到3000美金之间，如果进一步压缩利润率，Groq的成本和价格都有下降空间，可能与NVIDIA的定价更为接近。

Q：Groq芯片中的SM是什么，是否属于新技术？

A：SM（StreamingMultiprocessor）是在所有芯片中都存在的，不论是大的CPU、GPU还是其他芯片，它们内部都有SM。这不是一个新的创新，所以芯片内增加SM并不意味着从架构上有其它特殊的创新。以这种技术，Groq最近给出了每秒500特征的数据，但这个数字没有突破现有技术的范畴。

Q：Groq推理芯片的IP是如何进行设计与生产的，后期是否会有架构上的改变？

A：Groq的IP设计主要是由核心芯片厂商自行完成，不会外包或分片处理。至于架构上的改变，目前Groq仅公布了其芯片的POD连接方式，并未提到在chip-to-chip的高速服务上有显著的创新。它们的接口类似于标准的MALink，因此在这方面可能与其他IP厂商的高速设计不会有太大差异。Groq并未采用光模块或光通信等设计，因此，在这些连接方式上的创新并不多。然而，Groq的创新更多在于数据流处理和编程模式方面，特别是将整个芯片作为一个大型的SM（streamingmultiprocessor）和加速计算电路来使用。相对来说，这种编程模式和数据流动处理方式的创新是Groq最为显著的特点。

Q：静态随机存取存储器（SRAM）在成本上为什么这么贵，未来是否有降本空间？

A：SRAM的成本高是因为其工艺同数字电路无异，随着工艺技术的发展，特别是到了7纳米过程，SRAM的尺寸缩减变得相对敏感。数字电路在每代工艺更新时面积可缩小一半左右，但SRAM面积缩小幅度约为30%左右，没有数字电路的缩小幅度大。这一情况导致了SRAM在芯片中的成本比例逐渐增加，随着技术进步SRAM成本上升，并且其面积缩小速度追不上数字电路，因此在总体芯片成本中变得越发昂贵。不过，通过架构设计、冗余设计和DFM（设计制造集成）策略，可以在一定程度上降低SRAM的成本。但总体而言，随着工艺的进一步发展，SRAM的相对成本是上升的。SRAM还面临良率问题，且随着位数的增加，良率下降速度加快。这些因素都意味着SRAM在未来工艺中的成本管理将成为一个挑战。

Q：SSM（SRAM）的成本为何会高于DM（DRAM）？

A：SSM的设计构造比DM复杂，需要六个晶体管而DM仅需要一个晶体管。在相同工艺条件下，比如西蒙斯工艺，一块DRAM的密度大约是SRAM的六倍，从而导致成本为SRAM的1/6。DRAM可以独立生产，而SRAM必须与数字电路如CPU、GPU等一起生产且无法大面积或大批量生产，增加了成本。因此，尽管DRAM单个单元密度高且成本低，SRAM在整合到数字电路后其成本将相对较高。此外，随着数字电路工艺趋势向先进工艺发展，SRAM的缩小速度小于数字电路，从而在相对值上其成本随着数字电路缩小而增大。

Q：SM是否有降低成本的潜在途径？比如摩尔定律在数字电路上的应用。

A：在工艺的进步下，SRAM的成本缩减速度小于数字电路，且无法单独生产，这使其成本在相对值上随着数字电路尺寸减小而增加。摩尔定律对SRAM成本减小的潜在影响较小，而即使有技术革新，也会受到生产模式限制。

Q：Groq的架构是否与传统的SRAM与逻辑电路紧密结合有所冲突？

A：Groq的架构通过一种流水线结构将一整块SRAM当成整体使用，虽然物理上它们是分开的，这是架构上的一个创新，并非硬件创新。其他公司能够采取类似方法，但由于与现有的谷歌TPU领域专利可能存在冲突，美国内可能没有公司愿意尝试。

Q：在大型模型应用中，Groq芯片相较于GPU在推理质量上是否存在差异？

A：理论上如果Groq芯片和GPU使用相同的数据格式进行处理，比如说FP16或者Int8，应该不存在差异。然而，对比GPU是否同样使用Int8或者FP16进行运算存在不确定性，如果Groq采用Int8而GPU采用FP16，那么精度上会有所不同，其中FP16通常具有较高的精度。不过由于大型模型对精度不是非常敏感，Groq可能在实际应用中使用Int8而无显著影响。

Q：国内厂商海光、寒武纪、华为的在大模型芯片上的进展情况如何？

A：海光推出的芯片主要是为传统的高性能计算HPC领域服务，并没有特别为AI加速器优化，因此在大模型推理上不是特别合适。华为的产品也类似，也没有明显指向AI大模型推理的特化设计。

Q：Groq的芯片是否需要外接HBM，以及未来是否有此趋势？

A：Groq的芯片设计时并没有包括外部存储设备，只有PCIE接口和类似MA链接的高速接口，这可能是一个设计上的弊端。在未来，Groq有可能会朝向外接HBM的设计方向，以改善成本效率。目前Groq需要通过使用更多芯片来达到大模型运算需求，如果未来的设计能够外接HBM，可能会减少所需芯片数量，提升成本效率。

Q：Google的TPU是否采用了HBM，并且Groq芯片的设计是否与TPU相似？

A：Google的TPU是采用了HBM（高带宽存储器）技术，具体来说是32TBSBM的存储方式。大约有三分之一的设计和Groq的芯片相似，可以说是肯定有借鉴Groq的一些设计，因为包括clock核心在内的专利很多都是Groq的。比如在处理大模型运算方面，Groq的设计是有其创新之处的，这也是其他公司可以学习的地方。

Q：Groq的处理方案对国内的企业是否具有借鉴意义？HBM和Groq这类存储容量较小的产品在实际应用中与大容量存储方案相比有何区别？

A：Groq的处理方案对国内企业有一定的借鉴意义。例如，许多公司都在探索层面计算或进程计算，虽然像寒光八百的数据显示并不是很成功，但昆仑以及百度新闻的架构更接近于Groq这类大容量SM（流处理器）的架构。然而，在ICBN（基本国际电信号缩略语）不能采用的情况下，Groq的方案是一个相对可实现的选择。至于HBM这类高带宽但存储容量较小的技术，其在使用上与几GB大容量存储的区别主要在于对于大模型的执行需求。大模型通常需要100GB到200GB的空间才能跑起来，如果不使用外部的DM或ICM存储，则可能需要几百块芯片。这样的情况下，对于小型公司或者单一工厂而言不合适，因为它们更适合在云环境中运作。比如，Google和Baidu这样的大公司在云端操作大模型时，可能需要购买数以万计的存储卡，所以对他们而言存储规模的问题不是障碍。从终端用户的角度看，这些技术提供的性能是足够的，速度也非常快，不会感到明显的慢速。关键的是，对于云端的后端实施者来说，是一个问答任务占用大约16张卡，还是500张卡，这是成本和资源利用上的一个重大差异。