2025-01-27 04:10
3️⃣模型蒸餾: 研究者將大型模型DeepSeek蒸餾到較小的模型(如Llama 3),降低使用門檻,提升模型可及性,同時保持高準確性。此方法提供了一個創新的方式,讓更多人可以利用更強大的模型。
4️⃣Group Relative Policy Optimization: DeepSeek R1使用Group Relative Policy Optimization (GRPO) 強化學習方法。GRPO透過權衡舊策略與新策略的表現、並考量穩定的程度來修改策略,避免訓練過程中的不穩定性。
基準測試表現優異: 在數學、程式碼和科學推理等推理任務中,DeepSeek R1 的表現與OpenAI 的模型相當,甚至在某些情況下超越。