3️⃣模型蒸餾：研究者將大型模型DeepSeek蒸餾到較小的模型（如Llama 3），降低使用門檻，提升模型可及性，同時保持高準確性。此方法提供了一個創新的方式，讓更多人可以利用更強大的模型。 4️⃣Group Relative Policy Optimization: DeepSeek R1使用Group Relative Policy Optimization (GRPO) 強化學習方法。GRPO透過權衡舊策略與新策略的表現、並考量穩定的程度來修改策略，避免訓練過程中的不穩定性。基準測試表現優異：在數學、程式碼和科學推理等推理任務中，DeepSeek R1 的表現與OpenAI 的模型相當，甚至在某些情況下超越。

串文

2025-01-27 04:10

讚

回覆

轉發

作者

Imogenai
imogenai.app

粉絲

904

串文

141+

讚

回覆

轉發

24小時粉絲增長

發文前

806

發文後24小時

875

變化

+69 (8.56%)

互動率

(讚 + 回覆 + 轉發) / 粉絲數

0.33%

回覆 (BETA)

最先回覆的內容
發文後	用戶	內容
幾秒內	Imogenai imogenai.app	想免費使用蒸餾模型 Deepseek r1 llama3.3 70b 即到 Imogenai.app