透過大量的隨機試驗與獎勵機制會一步步的把決策函數訓練起來，跟一般的模型訓練相比，一般模型訓練時是需要給定一個標準答案給模型，但在強化學習只需要定義好不好、有多好，剩下讓強化學習算法替我們處理調教模型的事情, 非常適合用在條件複雜且無法說清答案的場景

串文

2024-12-31 09:08

透過大量的隨機試驗與獎勵機制會一步步的把決策函數訓練起來，跟一般的模型訓練相比，一般模型訓練時是需要給定一個標準答案給模型，但在強化學習只需要定義好不好、有多好，剩下讓強化學習算法替我們處理調教模型的事情, 非常適合用在條件複雜且無法說清答案的場景

讚

1

回覆

0

轉發

作者

張翊翔
zhyixi82105

粉絲

103

串文

26+

讚

回覆

轉發

24小時粉絲增長

發文前

102

發文後24小時

103

變化

+1 (0.98%)

互動率

(讚 + 回覆 + 轉發) / 粉絲數

0.97%

回覆 (BETA)

最先回覆的內容
發文後	用戶	內容