独角兽侦探丨Groq,AI推理芯片的新贵

发布于: 雪球转发:0回复:0喜欢:0

在人工智能快速发展的今天,作为人工智能系统的"大脑",AI芯片在处理复杂算法、加速深度学习和实现实时决策方面扮演着至关重要的角色。这些专门设计的芯片不仅大幅提升了AI应用的性能,还显著降低了能耗,使得从智能手机到自动驾驶汽车等各种设备都能够高效地运行AI模型。可以说,谁掌握了先进的芯片技术,谁就掌握了人工智能领域的制高点。

·· 关于 Groq ··

今天我们要介绍的主角是Groq ,成立于 2016 年,总部位于加利福尼亚州山景城。由 Google TPU 项目的主要设计师 Jonathan Ross 创立,Groq 致力于打造全球最快的 AI 推理技术。通过提供高效、经济且易于访问的 AI 和机器学习解决方案,Groq 正在影响整个AI芯片行业。

·· 创立背景与使命 ··

随着 AI 技术的快速发展,对高性能 AI 芯片的需求不断增加,Groq 瞄准了这一市场机会。Jonathan Ross 利用他在 Google 开发 TPU 时积累的经验,创立了 Groq,旨在开发新一代的 AI 加速器芯片,以提高 AI 计算性能并降低成本。Groq 的使命是消除“贫富差距”,帮助 AI 社区中的每个人蓬勃发展。推理速度是将开发人员的想法转化为业务解决方案和改变生活的应用程序的关键。

·· 领导团队 ··

Groq 拥有一支经验丰富且充满激情的领导团队:

Jonathan Ross CEO兼创始人,Google TPU的发明者

Jim Miller 硬件工程副总裁,前 AWS 工程师

Dennis Abts 首席架构师和 Groq 研究员

Edward Kmett 软件工程主管和 Groq 研究员,曾在 MIRI 和 Haskell 基金会董事会工作

John Barrus 产品副总裁

Samidh Chakrabarti 首席产品官,前 Facebook Civic Integrity Group 负责人

Adrian Mendes 首席运营官,前赛普拉斯半导体公司高管

·· 产品和创新 ··

该公司的张量流处理器(TSP)是专为机器学习而设计的专用集成电路。它是一个具有数百个功能单元的单个处理器,是处理器行业内的一种新颖架构。执行计划由 处理器中的编译器执行。它具有 220 兆位的静态随机存取存储器 (SRAM) 和每秒 1,000 万亿次运算。它具有单核单指令、由软件运行的多数据 (SIMD) 引擎和每秒 80 TB 的片上内存带宽。

Groq 指出,TSP 旨在利用机器学习工作负载中固有的并行性,包括指令级、内存并发性、数据和模型并行性。Groq 宣称其 LPU 推理性能是 NVIDIA GPU 的 10 倍,成本仅为其十分之一。Groq凭借自研的硬件加速器LPU,达成了500个token/s的推理速度,比ChatGPT快数倍。

Groq采用混合业务模式,结合了半导体、云服务和企业部署的元素。通过GroqCloud平台,提供基于云的AI推理服务,允许开发者运行大语言模型。计划在企业内部署Groq的解决方案,进一步扩大市场覆盖。

LPU(语言处理器)

LPU 推理引擎,LPU 代表语言处理单元™,是一个硬件和软件平台,可提供卓越的计算速度、质量和能源效率。这种新型的端到端处理单元系统为具有顺序组件的计算密集型应用程序(例如大型语言模型 (LLM) 等 AI 语言应用程序)提供了最快的推理。

LPU 旨在克服两个 LLM 瓶颈:计算密度和内存带宽。就 LLM 而言,LPU 的计算能力比 GPU 和 CPU 更大。这减少了每个单词的计算时间,从而可以更快地生成文本序列。此外,与 GPU 相比,消除外部内存瓶颈使 LPU 推理引擎能够在 LLM 上提供几个数量级的性能。

Groq 支持标准机器学习 (ML) 框架,例如 PyTorch、TensorFlow 和 ONNX 进行推理。Groq 目前不支持使用 LPU 推理引擎进行 ML 训练。

GroqCard™高性能 AI 加速器

GroqCard 加速器将单个 GroqChip™ 处理器(基于LPU架构设计)封装到标准 PCIe Gen4 x16 外形中,提供服务器集成。GroqCard 具有多达11个 RealScale™ 芯片到芯片连接以及内部软件定义网络,无需外部交换机即可实现近乎线性的多服务器和多机架可扩展性。GroqCard Accelerator售价为19,948美元。

GroqNode™适用于大规模部署的服务器系统

GroqNode 是一套 8 个 GroqCard™ 加速器,在 4U 服务器机箱中集成了芯片到芯片连接、双服务器级 CPU 和高达 1 TB 的 DRAM。GroqNode 旨在实现大型深度学习模型的高性能和低延迟部署。

GroqRack™可扩展的数据中心加速器网络

GroqRack 结合了 8 个 GroqNode™ 套件的强大功能,具有多达 64 个互连芯片和 1 个额外的冗余节点,可减少意外停机的影响。单个机架的端到端延迟仅为 1.6μs,非常适合大型工作负载,并可扩展到整个数据中心。

GroqCloudAI/ML 模型部署平台

利用流行的开源 LLM,如 Meta AI 的 Llama 2 70B,运行速度比其他领先提供商快 18 倍。对于输出令牌吞吐量,Groq 实现了平均 185 个令牌/秒。

Groq目前最明显的收入来源来自Groq云,他们的云 AI 推理平台。Groq云提供对Groq的大规模并行 TSP 、LPU基础设施通过简单的即用即付 API 运行最新的大型语言模型,Groq 根据使用情况提供一系列定价选项。

每百万个代币的定价如下:

Llama3-70B-8k:0.59 美元(输入)/ 0.79 美元(输出)

Llama3-8B-8k:0.05 美元(输入)/ 0.10 美元(输出)

Mixtral-8x7B-32k:0.27 美元(输入/输出)

Gemma-7B-Instruct:0.10 美元(输入/输出)

免费套餐:非常适合以低速率限制和社区支持开始使用。

按需:按令牌付费,具有更高的速率限制和优先级支持。

业务层:具有定制速率限制、微调模型、自定义 SLA 和专用支持的自定义解决方案。

·· 市场前景 ··

市场需求:

随着生成式和对话式AI应用的兴起,对低延迟、高吞吐量的实时推理需求显著增加。

Groq称,AI芯片市场的总潜在市场(TAM)预计到2027年将达到1194亿美元,目前约有40%的A芯片被用于推理,就使推理芯片的市场份额达到约480亿美元,显示出巨大的市场潜力。一旦应用程序成熟,它们通常会将 90-95% 的资源分配给推理,这表明随着时间的推移,市场会更大。

世界才刚刚开始探索人工智能带来的可能性。随着更多的应用和产品进入市场,这一比例可能会增加,这是一个非常保守的估计。随着全球几乎每个行业和政府都希望利用生成式和/或对话式 AI,AI 芯片的 TAM,尤其是专门用于推理的系统,市场是广阔的。

竞争优势:

GroqCloud™ 和 LPU™ 推理引擎

超过70,000名开发人员使用GroqCloud™,并有19,000个新应用程序在LPU™推理引擎上运行,展示了该平台的高接受度和实用性。Groq直接与人工智能研究实验室和模型开发人员合作,可以优化未来的模型和系统,以最大限度地利用其大规模并行/横向扩展架构。

技术优势

LPU推理引擎专注于低延迟和高吞吐量,为生成式和对话式AI应用提供了实时推理能力。

LPU架构基于单核确定性设计,比传统的GPU更适合实时AI推理。

Groq编译器完全确定性,确保每个内存负载和操作都按需精确安排,最大限度地提高了性能。

使用SRAM作为内存,比GPU使用的HBM内存快100倍,减少了程序优化复杂性。

无需CUDA或内核,简化了编程和模型编译,加快了推理速度和减少延迟。

高效能和环保设计

LPU设计优先考虑能效,减少了片外数据流动,能效是当前最节能GPU的10倍。

这种设计不仅降低了能耗,还减少了冷却需求,有助于降低整体计算成本和碳足迹。

供应链优势

采用14纳米硅制造,避免了对4纳米硅和HBM的依赖,减少了供应链风险。

完全在北美设计和制造,保证了供应链的可控性和稳定性。

融资

Groq 已经多轮融资中共筹集了超过 3.67 亿美元。最新一轮融资计划在 2024 年第二季度,由BlackRock领投,目标融资金额为 3 亿美元,估值可能达到 25 亿美元。这轮融资将用于加速公司增长,推进下一代产品开发,并扩大在AI芯片市场的竞争力,特别是挑战Nvidia的主导地位。

主要投资者

BlackRock

Tiger Global Management

D1 Capital

The Spruce House Partnership

Addition

GCM Grosvenor

Xⁿ

Firebolt Ventures

General Global Capital

Tru Arrow Partners

TDK Ventures

XTX Ventures

Boardman Bay Capital Management

Infinitum Partners

·· 企业合作 ··

Groq 的客户涵盖了从金融服务到科研机构的广泛领域:

aiXplain提供 AI 解决方案开发工具和资产。

Argonne National Laboratory科学和工程研究机构。

OneNano加密货币交易平台。

Groq 的合作伙伴包括

BittWare (Molex旗下): 作为Groq芯片加速卡的代工厂商。

三星电子:利用三星的4纳米工艺制造先进芯片。

独立硬件供应商(IHVs):合作提供根据各种规格和客户需求定制的服务器和机架。

Carahsoft Technology:作为政府IT解决方案提供商,与Groq合作举办面向公共部门的GroqDay活动,推广Groq的AI推理解决方案。

poe.com:Groq作为其特色推理提供商,托管运行在LPU推理引擎上的Llama 2 70B和Mixtral 8x7b模型。

Aramco Digital(沙特阿拉伯)以及Earth Wind& Power(挪威):合作建立计算中心等等。

Groq通过其先进的LPU推理引擎和GroqCloud™平台,在低延迟、高能效AI推理领域实现了显著的技术突破和市场扩展。其独特的技术优势和供应链战略使其在快速增长的AI芯片市场中占据了有利位置,展现出巨大的市场前景和发展潜力。