Threadser.net
數據
關鍵字
功能建議
Blog
Following
Threads
Change language
登入
串文
串文鏈結
2024-12-31 09:08
透過大量的隨機試驗與獎勵機制會一步步的把決策函數訓練起來,跟一般的模型訓練相比,一般模型訓練時是需要給定一個標準答案給模型,但在強化學習只需要定義好不好、有多好,剩下讓強化學習算法替我們處理調教模型的事情, 非常適合用在條件複雜且無法說清答案的場景
讚
1
回覆
0
轉發
作者
張翊翔
zhyixi82105
粉絲
103
串文
26+
讚
回覆
轉發
24小時粉絲增長
發文前
102
發文後24小時
103
變化
+1 (0.98%)
互動率
(讚 + 回覆 + 轉發) / 粉絲數
0.97%
回覆 (BETA)
最先回覆的內容
發文後
用戶
內容