2025-01-06 15:53
快速看了一下deepseek v3的論文
這個模型爭議很大
但確實有料
模型是開源的
LLM天梯的排名就是擺在那
政治撇一邊
我只看數據和論文說話
他們攻克了MoE架構的核心問題
其一是MoE佔用記憶體空間太多
其二是MoE收斂性問題
用fp8 training可以把weight大小砍半
再搭配新的loss機制
避免Router不夠balance或overfit問題
這些改進都切中了MoE架構的痛點
能夠在LLM天梯屠榜是毫不意外
當然這個模型最有爭議的是
who am I 模組沒有設計好
他會覺得他自己是chatgpt
這表示他使用到chatgpt生成的訓練資料
而chatgpt的使用者條款
其中一條就是不可將chatgpt產生的output
用於訓練
但….
output是可以賣給其他人的
其他人買我用chatgpt產生output
拿去幹啥,我管不著
客戶拿去訓練LLM
一切合法合規,謝謝指教
所以這條有跟沒有一樣
不管如何
看到fp8 training的新技術以及MoE滿血復活
我是雙手支持的