【AI】Groq 是什麼? LPU 又是什麼?｜Nvidia 當今最大威脅

文章目錄

Groq 是什麼?

Groq 是一間科技公司，由 Jonathan Ross 在 2016 年創立。

多數人可能會把 Groq 想像成是跟 ChatGPT 一樣的聊天機器人，但其實 Groq 並不是聊天機器人，也不是模型。

這間公司主要開發的是 LPU (Language Processing Unit) 推論引擎，又稱為 LPU Inference Engine。

在公司官網上有寫，公司的任務是設立生成式 AI (GenAI) 推論速度的標準，以實現即時 AI 應用。

也就是說，Groq 的核心並非機器人/模型，而是「加速 AI 模型」，包含 ChatGPT 等語言模型。

如果這樣你還不是很清楚，那麼直球對決，下面是 Groq 產品圖。

Source: Twitter

上面就是 Groq 的產品 – GroqCard，是不是很像顯卡?

這張 GroqCard 裡面只有 230 MB 內存，2 萬美元一張，在 LLM 任務上，LPU 比 Nvidia 的 GPU 效能快 10 倍!

*LLM (Large Language Model, 大型語言模型)

還是聽不太懂嗎? 沒關係，繼續看下去就懂了。

目前主流的 AI 系統都是透過 GPU 執行，LPU 克服了 GPU 的兩個瓶頸：計算密度和記憶體頻寬，在 LLM 來說，LPU 的運算能力強過 CPU 和 GPU。

CPU = 中央處理器，Central Processing Unit
GPU = 圖形處理器，Graphic Processing Unit
LPU = 語言處理單元，Language Processing Unit

不論是 CPU 還是 GPU，都是透過「硬體」的方式加快軟體運行速度，但 LPU 透過編譯器技術簡化排程，達到提高效能的目的。

可以想像，Groq 提供的就是 LPU (相對於 Nvidia 提供的 GPU)，這個 LPU 它如同 ASIC，是一個專門運行 AI 模型的晶片，不過跟過往只具備特定功能的 ASIC 不同，Groq 能夠客製化編譯器以支援不同的模型。

*ASIC (特定應用積體電路)

市面上有些積體電路 (IC) 是屬於「廣泛應用」而非「特定目的使用」，例如：中央處理器 (CPU) 由 Intel 設計與銷售、數位訊號處理器 (DSP) 由德州儀器設計與銷售，這種規格化產品消費者只能接受，很難更動產品規格。

而 ASIC 就跟這種規格化產品不同，是針對客戶客製，通常是經過 IC 設計公司針對客戶需求設計，如此「特別應用需求」的 IC 就被稱為 ASIC。

LPU 是什麼?

LPU 是一種 AI 晶片，是專門用來 AI 推論的晶片，據稱速度更勝 Nvidia 的 GPU。目前 LPU 的應用只限語言模型的推理運作，如果要訓練 AI，還是需要 GPU。

其實簡單來說，LPU 就是更新一代的處理器，專門運算 AI 模型。

GPU 雖是目前主流，但有很多 AI 運算用不到的硬體及功能，LPU 就是採用自身研發的編譯器技術達到運算 AI 的功能，同時把這些用不到的部分去除，讓這個處理器達到體積更小、效能更強的境界。

起源

Groq 成立於 2016 年，同年註冊商標，總部位於加州。

公司成立時間不長，過去一段時間也沒什麼名氣，但突然爆紅，甚至被稱為 Nvidia 的最大威脅。

目前有多項專案正在進行，包含音訊、語言、圖形處理、視訊、科學研究及編碼，這些專案目前都還在實驗中，公司官網有趣的說：「不保證這些未來能夠成為產品，但也不保證它們不會!」

Source: Groq Labs – Groq

CEO 兼創辦人 – Jonathan Ross

Jonathan Ross 是 Groq Inc. 的 CEO 兼創辦人，在創立 Groq 之前，Jonathan 在 Google 負責 Tensor Processing Unit (有兩成專案項目是由他負責)，他離開 Google 後創立了 Groq。

Jonathan 表示：「Groq 的存在是為了消除貧富差距，讓一般人也能夠受惠於 AI」，他認為「推理」對達到這個目標至關重要，因為即時的運行速度才能夠讓 AI 普及化地應用在生活中。

為何 LPU 在 LLM 及 GenAI 領域比 GPU 還要快?

LPU 的計算能力比 GPU 和 CPU 強，每個單詞的計算時間更短，因此可以更快生成文本序列。

另外，LPU 採用 SRAM 進行資料處理，SRAM (靜態隨機存取記憶體)，跟 DRAM 不同，資料存在 SRAM 裡面不會被刷新，因此存取速度更快。

縱使 GPU 採用高頻寬記憶體 (HBM)，但 HBM 仍是由 DRAM (動態隨機存取記憶體) 堆疊而成，說到底還是 DRAM，資料存在 DRAM 中會被刷新，導致存取速度較慢。

LPU 到底有多快?

Source: Accelerating Systems with Real-time AI Solutions – Groq

AI 應用平台 Anyscale 針對 8 款不同 LLM 推論供應商做比較，Anyscale 在各平台輸入 150 個請求，同時計算它們每秒回復的 Token 數量，Groq 的 LPU 推論引擎吞吐量為 185 個 Token，遠高於第二名 Anyscale 的 66 個。

很多人好奇 LPU 是如何設計才能有那麼快的速度，Jonathan 回答：「從軟體開始。當前主流晶片都是從硬體角度去設計跟製造，但他們是從軟體去優化。」

Jonathan 舉了一個例子：「這就像讓汽車機械師設計汽車一樣，所有的方法都跟優化引擎有關。在理想情況下，應該要讓一名司機來設計汽車，並讓機械師製造它。」

Jonathan 及公司多數團隊成員都是軟體工程師，因此他們聚焦在「編譯」，從一名使用者的角度設計晶片 (GroqChip)，讓晶片更輕量化、更專注於 LLM 運行。

Groq 與馬斯克的關係

這間「Groq」不是馬斯克的「Grok」!

Grok 是一種 AI 聊天機器人，由 xAI 公司所開發。

當 xAI 公布 Grok 後，Groq 馬上發公布信聲明自己擁有商標權。

這封信目前還在 Groq 的官網上

大意是說：

馬斯克的 xAI 公司發布聊天機器人，用了 Groq 的名字
Groq 跟 Grok 兩個名字有多容易造成混淆
諷刺馬斯克使用 Grok 的名字是因為 Groq 的速度很快
聲明 Groq 的商標權，建議馬斯克把 Grok 改名，換成「Slartibartfast」
這個建議是站在馬斯克的角度思考，名字反映他受到《銀河便車指南》的啟發，聽起來跟其他公司也不同，提到這也是為何不建議馬斯克改名 Giggle 或 OpenXi。

LPU 與 GPU 比較

AI 的推理運算，相較於模型訓練所需的資料量較小，在這個領域 Groq 的 LPU 表現比 Nvidia 的 GPU好。

在執行推理任務時，因為 LPU 採用 SRAM，從外部記憶體讀取的資料更少，消耗的電量低於 Nvidia 的 GPU。

下圖對比 GroqChip 及傳統 GPU 的架構，可以看出設計上 GroqChip 簡單許多，設計複雜的 GPU 不一定能有更強的運算效能，反而會造成資源浪費。

重點摘要

這篇文章提到很多專有名詞，看到這邊值得為自己喝采。

為了讓大家更了解文章重點，摘要如下：

Groq 是什麼?

A：Groq 是一間科技公司，核心技術是 LPU。

LPU 是什麼?

A：LPU 是一種 AI 晶片，是專門用來 AI 推論的晶片。LPU 是跟 GPU 邏輯不同的處理器，專門運算 AI 模型。

LPU 到底有多快?

A：在 LLM 中比 GPU 還快，但在其他領域仍是 GPU 較快。

LPU 如何做到比 GPU 快?

A：透過 SRAM 及編譯法技術，突破計算密度和記憶體頻寬的瓶頸。

Groq 與馬斯克有何關係?

A：沒關係，馬斯克的 xAI 發表了聊天機器人 Grok，名字很像 Groq。

蒐集、整理這些資料很累，寫到一半開始懷疑人生，但還是咬牙完成。

如果文章對你有幫助，請幫我粉絲團按讚追蹤，後續有更多投資、AI文章才不會漏追。

【AI】Groq 是什麼? LPU 又是什麼?｜Nvidia 當今最大威脅

Groq 是什麼?

LPU 是什麼?

起源

CEO 兼創辦人 – Jonathan Ross

為何 LPU 在 LLM 及 GenAI 領域比 GPU 還要快?

LPU 到底有多快?

Groq 與馬斯克的關係

LPU 與 GPU 比較

重點摘要

資料來源

更多精采文章

【AI】Groq 是什麼? LPU 又是什麼?｜Nvidia 當今最大威脅

Groq 是什麼?

LPU 是什麼?

起源

CEO 兼創辦人 – Jonathan Ross

為何 LPU 在 LLM 及 GenAI 領域比 GPU 還要快?

LPU 到底有多快?

Groq 與馬斯克的關係

LPU 與 GPU 比較

重點摘要

資料來源

更多精采文章

Related Posts

【FOMC】聯準會 5 月開會前解盤 (202405)

【台股】九暘公司介紹｜乙太網路 IC 設計公司