2025-01-07 07:18
Nvidia CES Keynotes 逆風發文 如果MoE架構的LLM成為主流 那對硬體架構會有什麼樣的衝擊? deepseek v3 的MoE稀疏度遠比mistral之前出的8x7B, 8x22B還要更稀 671B的參數量,但實際只會有37GB的流量 37GB的流量是什麼概念? 只要一張4090的頻寬(1TB/s) 就能跑到27 token/s 意思就是我根本不需要HBM3/先進封裝 頻寬就夠用了 話雖如此 單張4090可裝不下671GB的weight GDDR6X還是太小了 所以MoE最優的記憶體方案會是LPDDR5 不是現在nvidia的配置 我可以用LPDDR5組出足以達到破壞式創新 的LLM MoE 的硬體組態 (其中一個方法是用mac mini疊, mac mini就是LPDDR5中的佼佼者) 另一方面訓練需要的GPU hours大幅下降 當大家都開始用這種方法訓練的話 GPU鐵定過剩 當然 如果MoE沒成為主流 以上都不會發生
101
回覆
28
轉發
32

回覆

轉發

24小時粉絲增長

發文前

784

發文後24小時

886

變化

+102 (13.01%)

互動率

(讚 + 回覆 + 轉發) / 粉絲數
17.97%

© 2025 Threadser.net. 版權所有。

Threadser.net 與 Meta Platforms, Inc. 無關,未經其認可、贊助或特別批准。

Threadser.net 也不與 Meta 的"Threads" 產品存在任何關聯。