2025-01-06 15:53
快速看了一下deepseek v3的論文 這個模型爭議很大 但確實有料 模型是開源的 LLM天梯的排名就是擺在那 政治撇一邊 我只看數據和論文說話 他們攻克了MoE架構的核心問題 其一是MoE佔用記憶體空間太多 其二是MoE收斂性問題 用fp8 training可以把weight大小砍半 再搭配新的loss機制 避免Router不夠balance或overfit問題 這些改進都切中了MoE架構的痛點 能夠在LLM天梯屠榜是毫不意外 當然這個模型最有爭議的是 who am I 模組沒有設計好 他會覺得他自己是chatgpt 這表示他使用到chatgpt生成的訓練資料 而chatgpt的使用者條款 其中一條就是不可將chatgpt產生的output 用於訓練 但…. output是可以賣給其他人的 其他人買我用chatgpt產生output 拿去幹啥,我管不著 客戶拿去訓練LLM 一切合法合規,謝謝指教 所以這條有跟沒有一樣 不管如何 看到fp8 training的新技術以及MoE滿血復活 我是雙手支持的
279
回覆
16
轉發
45

作者

吳啟聖
tim.chi_sheng.wu
profile
粉絲
1,045
串文
343+

回覆

轉發

24小時粉絲增長

發文前

778

發文後24小時

863

變化

+85 (10.93%)

互動率

(讚 + 回覆 + 轉發) / 粉絲數
32.54%

© 2025 Threadser.net. 版權所有。

Threadser.net 與 Meta Platforms, Inc. 無關,未經其認可、贊助或特別批准。

Threadser.net 也不與 Meta 的"Threads" 產品存在任何關聯。