Home » 【AI】Groq 是什麼? LPU 又是什麼?|Nvidia 當今最大威脅

【AI】Groq 是什麼? LPU 又是什麼?|Nvidia 當今最大威脅

Groq 是什麼?

Groq 是一間科技公司,由 Jonathan Ross 在 2016 年創立。

多數人可能會把 Groq 想像成是跟 ChatGPT 一樣的聊天機器人,但其實 Groq 並不是聊天機器人,也不是模型

這間公司主要開發的是 LPU (Language Processing Unit) 推論引擎,又稱為 LPU Inference Engine。

在公司官網上有寫,公司的任務是設立生成式 AI (GenAI) 推論速度的標準,以實現即時 AI 應用。

也就是說,Groq 的核心並非機器人/模型,而是「加速 AI 模型」,包含 ChatGPT 等語言模型。

如果這樣你還不是很清楚,那麼直球對決,下面是 Groq 產品圖。

Source: Twitter

上面就是 Groq 的產品 – GroqCard,是不是很像顯卡?

這張 GroqCard 裡面只有 230 MB 內存,2 萬美元一張,在 LLM 任務上,LPU 比 Nvidia 的 GPU 效能快 10 倍!

*LLM (Large Language Model, 大型語言模型)

還是聽不太懂嗎? 沒關係,繼續看下去就懂了。

目前主流的 AI 系統都是透過 GPU 執行,LPU 克服了 GPU 的兩個瓶頸:計算密度記憶體頻寬,在 LLM 來說,LPU 的運算能力強過 CPU 和 GPU。

  • CPU = 中央處理器,Central Processing Unit
  • GPU = 圖形處理器,Graphic Processing Unit
  • LPU = 語言處理單元,Language Processing Unit

不論是 CPU 還是 GPU,都是透過「硬體」的方式加快軟體運行速度,但 LPU 透過編譯器技術簡化排程,達到提高效能的目的。

可以想像,Groq 提供的就是 LPU (相對於 Nvidia 提供的 GPU),這個 LPU 它如同 ASIC,是一個專門運行 AI 模型的晶片,不過跟過往只具備特定功能的 ASIC 不同,Groq 能夠客製化編譯器以支援不同的模型。

*ASIC (特定應用積體電路)

市面上有些積體電路 (IC) 是屬於「廣泛應用」而非「特定目的使用」,例如:中央處理器 (CPU) 由 Intel 設計與銷售、數位訊號處理器 (DSP) 由德州儀器設計與銷售,這種規格化產品消費者只能接受,很難更動產品規格。

而 ASIC 就跟這種規格化產品不同,是針對客戶客製,通常是經過 IC 設計公司針對客戶需求設計,如此「特別應用需求」的 IC 就被稱為 ASIC。

LPU 是什麼?

LPU 是一種 AI 晶片,是專門用來 AI 推論的晶片,據稱速度更勝 Nvidia 的 GPU。 目前 LPU 的應用只限語言模型的推理運作,如果要訓練 AI,還是需要 GPU。

其實簡單來說,LPU 就是更新一代的處理器,專門運算 AI 模型

GPU 雖是目前主流,但有很多 AI 運算用不到的硬體及功能,LPU 就是採用自身研發的編譯器技術達到運算 AI 的功能,同時把這些用不到的部分去除,讓這個處理器達到體積更小、效能更強的境界。

起源

Groq 成立於 2016 年,同年註冊商標,總部位於加州。

公司成立時間不長,過去一段時間也沒什麼名氣,但突然爆紅,甚至被稱為 Nvidia 的最大威脅。

目前有多項專案正在進行,包含音訊、語言、圖形處理、視訊、科學研究及編碼,這些專案目前都還在實驗中,公司官網有趣的說:「不保證這些未來能夠成為產品,但也不保證它們不會!」

Source: Groq Labs – Groq

CEO 兼創辦人 – Jonathan Ross

Jonathan Ross 是 Groq Inc. 的 CEO 兼創辦人,在創立 Groq 之前,Jonathan 在 Google 負責 Tensor Processing Unit (有兩成專案項目是由他負責),他離開 Google 後創立了 Groq。

Jonathan 表示:「Groq 的存在是為了消除貧富差距,讓一般人也能夠受惠於 AI」,他認為「推理」對達到這個目標至關重要,因為即時的運行速度才能夠讓 AI 普及化地應用在生活中。

為何 LPU 在 LLM 及 GenAI 領域比 GPU 還要快?

LPU 的計算能力比 GPU 和 CPU 強,每個單詞的計算時間更短,因此可以更快生成文本序列。

另外,LPU 採用 SRAM 進行資料處理,SRAM (靜態隨機存取記憶體),跟 DRAM 不同,資料存在 SRAM 裡面不會被刷新,因此存取速度更快。

縱使 GPU 採用高頻寬記憶體 (HBM),但 HBM 仍是由 DRAM (動態隨機存取記憶體) 堆疊而成,說到底還是 DRAM,資料存在 DRAM 中會被刷新,導致存取速度較慢。

LPU 到底有多快?

Source: Accelerating Systems with Real-time AI Solutions – Groq

AI 應用平台 Anyscale 針對 8 款不同 LLM 推論供應商做比較,Anyscale 在各平台輸入 150 個請求,同時計算它們每秒回復的 Token 數量,Groq 的 LPU 推論引擎吞吐量為 185 個 Token,遠高於第二名 Anyscale 的 66 個。

很多人好奇 LPU 是如何設計才能有那麼快的速度,Jonathan 回答:「從軟體開始。當前主流晶片都是從硬體角度去設計跟製造,但他們是從軟體去優化。」

Jonathan 舉了一個例子:「這就像讓汽車機械師設計汽車一樣,所有的方法都跟優化引擎有關。在理想情況下,應該要讓一名司機來設計汽車,並讓機械師製造它。」

Jonathan 及公司多數團隊成員都是軟體工程師,因此他們聚焦在「編譯」,從一名使用者的角度設計晶片 (GroqChip),讓晶片更輕量化、更專注於 LLM 運行。

Groq 與馬斯克的關係

這間「Groq」不是馬斯克的「Grok」!

Grok 是一種 AI 聊天機器人,由 xAI 公司所開發

當 xAI 公布 Grok 後,Groq 馬上發公布信聲明自己擁有商標權。

這封信目前還在 Groq 的官網上

大意是說:

  • 馬斯克的 xAI 公司發布聊天機器人,用了 Groq 的名字
  • Groq 跟 Grok 兩個名字有多容易造成混淆
  • 諷刺馬斯克使用 Grok 的名字是因為 Groq 的速度很快
  • 聲明 Groq 的商標權,建議馬斯克把 Grok 改名,換成「Slartibartfast」
  • 這個建議是站在馬斯克的角度思考,名字反映他受到《銀河便車指南》的啟發,聽起來跟其他公司也不同,提到這也是為何不建議馬斯克改名 Giggle 或 OpenXi。

LPU 與 GPU 比較

AI 的推理運算,相較於模型訓練所需的資料量較小,在這個領域 Groq 的 LPU 表現比 Nvidia 的 GPU好

在執行推理任務時,因為 LPU 採用 SRAM,從外部記憶體讀取的資料更少,消耗的電量低於 Nvidia 的 GPU

下圖對比 GroqChip 及傳統 GPU 的架構,可以看出設計上 GroqChip 簡單許多,設計複雜的 GPU 不一定能有更強的運算效能,反而會造成資源浪費。

重點摘要

這篇文章提到很多專有名詞,看到這邊值得為自己喝采。

為了讓大家更了解文章重點,摘要如下:

Groq 是什麼?

A:Groq 是一間科技公司,核心技術是 LPU。

LPU 是什麼?

A:LPU 是一種 AI 晶片,是專門用來 AI 推論的晶片。LPU 是跟 GPU 邏輯不同的處理器,專門運算 AI 模型。

LPU 到底有多快?

A:在 LLM 中比 GPU 還快,但在其他領域仍是 GPU 較快。

LPU 如何做到比 GPU 快?

A:透過 SRAM 及編譯法技術,突破計算密度和記憶體頻寬的瓶頸。

Groq 與馬斯克有何關係?

A:沒關係,馬斯克的 xAI 發表了聊天機器人 Grok,名字很像 Groq。

蒐集、整理這些資料很累,寫到一半開始懷疑人生,但還是咬牙完成。

如果文章對你有幫助,請幫我粉絲團按讚追蹤,後續有更多投資、AI文章才不會漏追。

資料來源


更多精采文章

書評《馬斯克傳》夢想送人類上火星的大男孩

【台股】AI 手機概念股整理,三星 S24 功能解析

【美股】美超微公司介紹|AI 伺服器服務公司

【美股】諾和諾德 (Novo Nordisk) 公司介紹|減肥藥如何讓股價狂飆?

【旅遊紀錄】iRent 租車是否划算? |租車QA、使用經驗分享

Related Posts