2025-01-07 07:18
Nvidia CES Keynotes
逆風發文
如果MoE架構的LLM成為主流
那對硬體架構會有什麼樣的衝擊?
deepseek v3 的MoE稀疏度遠比mistral之前出的8x7B, 8x22B還要更稀
671B的參數量,但實際只會有37GB的流量
37GB的流量是什麼概念?
只要一張4090的頻寬(1TB/s)
就能跑到27 token/s
意思就是我根本不需要HBM3/先進封裝
頻寬就夠用了
話雖如此
單張4090可裝不下671GB的weight
GDDR6X還是太小了
所以MoE最優的記憶體方案會是LPDDR5
不是現在nvidia的配置
我可以用LPDDR5組出足以達到破壞式創新
的LLM MoE 的硬體組態
(其中一個方法是用mac mini疊,
mac mini就是LPDDR5中的佼佼者)
另一方面訓練需要的GPU hours大幅下降
當大家都開始用這種方法訓練的話
GPU鐵定過剩
當然
如果MoE沒成為主流
以上都不會發生