文章目錄
Groq 是什麼?
Groq 是一間科技公司,由 Jonathan Ross 在 2016 年創立。
多數人可能會把 Groq 想像成是跟 ChatGPT 一樣的聊天機器人,但其實 Groq 並不是聊天機器人,也不是模型。
這間公司主要開發的是 LPU (Language Processing Unit) 推論引擎,又稱為 LPU Inference Engine。
在公司官網上有寫,公司的任務是設立生成式 AI (GenAI) 推論速度的標準,以實現即時 AI 應用。
也就是說,Groq 的核心並非機器人/模型,而是「加速 AI 模型」,包含 ChatGPT 等語言模型。
如果這樣你還不是很清楚,那麼直球對決,下面是 Groq 產品圖。
Source: Twitter
上面就是 Groq 的產品 – GroqCard,是不是很像顯卡?
這張 GroqCard 裡面只有 230 MB 內存,2 萬美元一張,在 LLM 任務上,LPU 比 Nvidia 的 GPU 效能快 10 倍!
*LLM (Large Language Model, 大型語言模型)
還是聽不太懂嗎? 沒關係,繼續看下去就懂了。
目前主流的 AI 系統都是透過 GPU 執行,LPU 克服了 GPU 的兩個瓶頸:計算密度和記憶體頻寬,在 LLM 來說,LPU 的運算能力強過 CPU 和 GPU。
- CPU = 中央處理器,Central Processing Unit
- GPU = 圖形處理器,Graphic Processing Unit
- LPU = 語言處理單元,Language Processing Unit
不論是 CPU 還是 GPU,都是透過「硬體」的方式加快軟體運行速度,但 LPU 透過編譯器技術簡化排程,達到提高效能的目的。
可以想像,Groq 提供的就是 LPU (相對於 Nvidia 提供的 GPU),這個 LPU 它如同 ASIC,是一個專門運行 AI 模型的晶片,不過跟過往只具備特定功能的 ASIC 不同,Groq 能夠客製化編譯器以支援不同的模型。
*ASIC (特定應用積體電路)
市面上有些積體電路 (IC) 是屬於「廣泛應用」而非「特定目的使用」,例如:中央處理器 (CPU) 由 Intel 設計與銷售、數位訊號處理器 (DSP) 由德州儀器設計與銷售,這種規格化產品消費者只能接受,很難更動產品規格。
而 ASIC 就跟這種規格化產品不同,是針對客戶客製,通常是經過 IC 設計公司針對客戶需求設計,如此「特別應用需求」的 IC 就被稱為 ASIC。
LPU 是什麼?
LPU 是一種 AI 晶片,是專門用來 AI 推論的晶片,據稱速度更勝 Nvidia 的 GPU。 目前 LPU 的應用只限語言模型的推理運作,如果要訓練 AI,還是需要 GPU。
其實簡單來說,LPU 就是更新一代的處理器,專門運算 AI 模型。
GPU 雖是目前主流,但有很多 AI 運算用不到的硬體及功能,LPU 就是採用自身研發的編譯器技術達到運算 AI 的功能,同時把這些用不到的部分去除,讓這個處理器達到體積更小、效能更強的境界。
起源
Groq 成立於 2016 年,同年註冊商標,總部位於加州。
公司成立時間不長,過去一段時間也沒什麼名氣,但突然爆紅,甚至被稱為 Nvidia 的最大威脅。
目前有多項專案正在進行,包含音訊、語言、圖形處理、視訊、科學研究及編碼,這些專案目前都還在實驗中,公司官網有趣的說:「不保證這些未來能夠成為產品,但也不保證它們不會!」
Source: Groq Labs – Groq
CEO 兼創辦人 – Jonathan Ross
Jonathan Ross 是 Groq Inc. 的 CEO 兼創辦人,在創立 Groq 之前,Jonathan 在 Google 負責 Tensor Processing Unit (有兩成專案項目是由他負責),他離開 Google 後創立了 Groq。
Jonathan 表示:「Groq 的存在是為了消除貧富差距,讓一般人也能夠受惠於 AI」,他認為「推理」對達到這個目標至關重要,因為即時的運行速度才能夠讓 AI 普及化地應用在生活中。
為何 LPU 在 LLM 及 GenAI 領域比 GPU 還要快?
LPU 的計算能力比 GPU 和 CPU 強,每個單詞的計算時間更短,因此可以更快生成文本序列。
另外,LPU 採用 SRAM 進行資料處理,SRAM (靜態隨機存取記憶體),跟 DRAM 不同,資料存在 SRAM 裡面不會被刷新,因此存取速度更快。
縱使 GPU 採用高頻寬記憶體 (HBM),但 HBM 仍是由 DRAM (動態隨機存取記憶體) 堆疊而成,說到底還是 DRAM,資料存在 DRAM 中會被刷新,導致存取速度較慢。
LPU 到底有多快?
Source: Accelerating Systems with Real-time AI Solutions – Groq
AI 應用平台 Anyscale 針對 8 款不同 LLM 推論供應商做比較,Anyscale 在各平台輸入 150 個請求,同時計算它們每秒回復的 Token 數量,Groq 的 LPU 推論引擎吞吐量為 185 個 Token,遠高於第二名 Anyscale 的 66 個。
很多人好奇 LPU 是如何設計才能有那麼快的速度,Jonathan 回答:「從軟體開始。當前主流晶片都是從硬體角度去設計跟製造,但他們是從軟體去優化。」
Jonathan 舉了一個例子:「這就像讓汽車機械師設計汽車一樣,所有的方法都跟優化引擎有關。在理想情況下,應該要讓一名司機來設計汽車,並讓機械師製造它。」
Jonathan 及公司多數團隊成員都是軟體工程師,因此他們聚焦在「編譯」,從一名使用者的角度設計晶片 (GroqChip),讓晶片更輕量化、更專注於 LLM 運行。
Groq 與馬斯克的關係
這間「Groq」不是馬斯克的「Grok」!
Grok 是一種 AI 聊天機器人,由 xAI 公司所開發。
當 xAI 公布 Grok 後,Groq 馬上發公布信聲明自己擁有商標權。
這封信目前還在 Groq 的官網上
大意是說:
- 馬斯克的 xAI 公司發布聊天機器人,用了 Groq 的名字
- Groq 跟 Grok 兩個名字有多容易造成混淆
- 諷刺馬斯克使用 Grok 的名字是因為 Groq 的速度很快
- 聲明 Groq 的商標權,建議馬斯克把 Grok 改名,換成「Slartibartfast」
- 這個建議是站在馬斯克的角度思考,名字反映他受到《銀河便車指南》的啟發,聽起來跟其他公司也不同,提到這也是為何不建議馬斯克改名 Giggle 或 OpenXi。
LPU 與 GPU 比較
AI 的推理運算,相較於模型訓練所需的資料量較小,在這個領域 Groq 的 LPU 表現比 Nvidia 的 GPU好。
在執行推理任務時,因為 LPU 採用 SRAM,從外部記憶體讀取的資料更少,消耗的電量低於 Nvidia 的 GPU。
下圖對比 GroqChip 及傳統 GPU 的架構,可以看出設計上 GroqChip 簡單許多,設計複雜的 GPU 不一定能有更強的運算效能,反而會造成資源浪費。
重點摘要
這篇文章提到很多專有名詞,看到這邊值得為自己喝采。
為了讓大家更了解文章重點,摘要如下:
Groq 是什麼?
A:Groq 是一間科技公司,核心技術是 LPU。
LPU 是什麼?
A:LPU 是一種 AI 晶片,是專門用來 AI 推論的晶片。LPU 是跟 GPU 邏輯不同的處理器,專門運算 AI 模型。
LPU 到底有多快?
A:在 LLM 中比 GPU 還快,但在其他領域仍是 GPU 較快。
LPU 如何做到比 GPU 快?
A:透過 SRAM 及編譯法技術,突破計算密度和記憶體頻寬的瓶頸。
Groq 與馬斯克有何關係?
A:沒關係,馬斯克的 xAI 發表了聊天機器人 Grok,名字很像 Groq。
蒐集、整理這些資料很累,寫到一半開始懷疑人生,但還是咬牙完成。
如果文章對你有幫助,請幫我粉絲團按讚追蹤,後續有更多投資、AI文章才不會漏追。
資料來源
- 【圖解】秒懂ASIC、FPGA!AI對台「10年大進補」,GPU、CPU外還有哪些商機可吃?|數位時代 BusinessNext (bnext.com.tw)
- Groq: Pioneering the Future of Generative AI and High-Performance Computing (substack.com)
- Groq以LPU推論引擎提供全球最快LLM服務 | iThome
- 比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍 – 知乎 (zhihu.com)
- Meet Groq — the chip designed to run AI models really, really fast | Tom’s Guide (tomsguide.com)