2025-01-28 12:30
每天一點AI知識小補貼
今天我們來分享 DeepSeek R1 最新的論文
在 DeekSeek 論文中便是關注於如何訓練 AI 獲得更好的推理能力。
- 過去更常以 SFT 的方式來做訓練,有點類似瘋狂刷題並且 ”背解法”,人工準備大量的題目,並且每個題目都已經有明確的解法, AI 嘗試以過往題庫看到的解法來解,有點像大學大考將近,狂背題庫解法來塞知識進大腦裡,
- DeepSeek-R1-Zero, 則完全採用 RL,只有一堆沒解法的題庫, AI 只能不斷去撞來嘗試取得解答,就很像是你大考時,你看到的你沒複習到的題目,那時候發揮你推理的能力了,透過已有的知識常識”推理”出可能的答案,如果推不出來,就重推,最後就展現了驚人的自我驗證、反思的能力。
- DeepSeek-R1: 在強化學習前加入少量冷啟動數據,解決 Zero 模型輸出很容易多國語言混用的問題並且提升更強的效能。
基本上是以大白話來介紹,如果在從事相關研究的話可以研究看看
追蹤我,每天能持續看到一點軟體工程的知識小筆記