每天一點AI知識小補貼今天我們來分享 DeepSeek R1 最新的論文在 DeekSeek 論文中便是關注於如何訓練 AI 獲得更好的推理能力。 - 過去更常以 SFT 的方式來做訓練，有點類似瘋狂刷題並且 ”背解法”，人工準備大量的題目，並且每個題目都已經有明確的解法， AI 嘗試以過往題庫看到的解法來解，有點像大學大考將近，狂背題庫解法來塞知識進大腦裡， - DeepSeek-R1-Zero，則完全採用 RL，只有一堆沒解法的題庫， AI 只能不斷去撞來嘗試取得解答，就很像是你大考時，你看到的你沒複習到的題目，那時候發揮你推理的能力了，透過已有的知識常識”推理”出可能的答案，如果推不出來，就重推，最後就展現了驚人的自我驗證、反思的能力。 - DeepSeek-R1：在強化學習前加入少量冷啟動數據，解決 Zero 模型輸出很容易多國語言混用的問題並且提升更強的效能。基本上是以大白話來介紹，如果在從事相關研究的話可以研究看看追蹤我，每天能持續看到一點軟體工程的知識小筆記

串文

2025-01-28 12:30

讚

228

回覆

轉發

作者

Ray貓。吳睿誠
ray.realms

粉絲

8,684

串文

522+

讚

回覆

轉發

24小時粉絲增長

發文前

8,291

發文後24小時

8,330

變化

+39 (0.47%)

互動率

(讚 + 回覆 + 轉發) / 粉絲數

2.91%

回覆 (BETA)

最先回覆的內容
發文後	用戶	內容
18 分鐘內	Ray貓。吳睿誠 ray.realms	這篇互動好差，看起來這種論文的白話文式介紹串文可能之後得在想個新的形式了
35 分鐘內	橘貓的社會學 cat__soc	有點太硬😂
2 小時內	honesynn99 honest5728	我覺得翻譯後很好懂耶
6 小時內	yyiisea	喜歡這個解釋方式～蠻好理解✨
13 小時內	Jack Tseng jack19790404	文章中所撰述的「SFT」跟「RL」，這些專有名詞對一般人來說很生硬，也許這是互動起來比較差的原因。大部人都能講AI這個單字，但對於它在做什麼及怎麼形成的，我相信大部分的人會不清楚。如果可以，看您是否用更簡單的方式，例如一個圖示，讓一般人更能瞭解呢？
2 天內	開心 kaixin47	👍👍👍
2 天內	JIJ chuchushoooooes	推推