👉🏻4點簡介Deepseek R1 1️⃣Chain of Thought 機制： DeepSeek R1 使用「Chain of Thought」機制，讓模型更清晰地表述推理步驟，提高準確性並能精確找出錯誤源頭。例如，在數學題目中，模型會逐步闡述解題過程，而不是直接給出答案。 2️⃣強化學習： DeepSeek R1採用強化學習方法調整模型行為，以提升模型在不同任務上的準確性。模型透過探索和嘗試，找到最佳的解題方法，並迭代提升準確度。與傳統監督式學習相比，此方法更像人類學習。

串文

2025-01-27 04:10

讚

回覆

轉發

作者

Imogenai
imogenai.app

粉絲

904

串文

140+

讚

回覆

轉發

24小時粉絲增長

發文前

806

發文後24小時

875

變化

+69 (8.56%)

互動率

(讚 + 回覆 + 轉發) / 粉絲數

1.44%

回覆 (BETA)

最先回覆的內容
發文後	用戶	內容
幾秒內	Imogenai imogenai.app	3️⃣模型蒸餾：研究者將大型模型DeepSeek蒸餾到較小的模型（如Llama 3），降低使用門檻，提升模型可及性，同時保持高準確性。此方法提供了一個創新的方式，讓更多人可以利用更強大的模型。 4️⃣Group Relative Policy Optimization: DeepSeek R1使用Group Relative Policy Optimization (GRPO) 強化學習方法。GRPO透過權衡舊策略與新策略的表現、並考量穩定的程度來修改策略，避免訓練過程中的不穩定性。基準測試表現優異：在數學、程式碼和科學推理等推理任務中，DeepSeek R1 的表現與OpenAI 的模型相當，甚至在某些情況下超越。