2025-01-28 23:16
來談一下最近沸沸洋洋的 Deepseek 吧
我剛好有一個北京的學長在 Deepseek
雖然我不太知道詳細的細節也沒仔細問
但只能說 中國的 AI 發展本來就很強 算力也不會輸
2022 在北京商湯實習的時候人手16張 A100
那時候我就在復刻 GPT-3 的 LLM了
所以要說算力 Deepseek 一定夠 不只2000 張
但 「實際訓練」有沒有可能只用兩千張 GPU 呢?
很有可能 其實我們公司九個月前就做了類似的事
當時 Mosaic 用 MoE 訓練兩個月做出 DBRX
已經大幅度減低成本 也能追上 GPT-3.5
當然不得不說 Deepseek 使用 RL 創新
降低成本也提升 benchmark 是真的很厲害
那麼這會影響 NVDA, TSM 這麼嚴重嗎?
我認為不會, AI 需求還是在, 且更多公司能加入
(當然 我們也會有更多用戶 ✌️
今天公司年會 聽完了大老闆講話 真的很有遠見
也很慶幸自己能加入 DB 吃到這塊 AI 的大餅
未來也要繼續加油 💪