2025-01-27 04:10
👉🏻4點簡介Deepseek R1
1️⃣Chain of Thought 機制: DeepSeek R1 使用「Chain of Thought」機制,讓模型更清晰地表述推理步驟,提高準確性並能精確找出錯誤源頭。例如,在數學題目中,模型會逐步闡述解題過程,而不是直接給出答案。
2️⃣強化學習: DeepSeek R1採用強化學習方法調整模型行為,以提升模型在不同任務上的準確性。模型透過探索和嘗試,找到最佳的解題方法,並迭代提升準確度。與傳統監督式學習相比,此方法更像人類學習。