2025-01-26 08:47
總結一下DeepSeek討論的初步結果,DeepSeek的貢獻主要有兩個:
一是基礎模型的預訓練,二是利用無監督的增強學習(RL)提高推理能力
1)在預訓練方面,DeepSeek團隊的貢獻主要是工程性的:比如超強的訓練穩定度、深入使用fb8混合精度、多詞同時預測、隱空間多注意力頭,MOE混合專家等等。這大大降低了訓練成本,用600萬美金訓練一個600B的大模型,可謂是工程上的奇跡。
2)在推理方面,DeepSeek團隊的貢獻則是突破性的,科學性的,但也是階段性的——他依然沒有實現AGI,水平也只是和GPT o1 比肩。它證明瞭無需使用費時耗力的思維鏈標注,用無監督數據也可讓模型自然湧現出推理能力。這大大降低了模型推理的門檻,也是首個開源的、能力接近GPT o1的推理模型。
當然,之所以DeepSeek R1 最終無法超越GPT o1,可能是他有意無意使用了後者輸出作為訓練數據有關。