Threadser.net
數據
關鍵字
功能建議
Blog
Following
Threads
Change language
登入
串文
串文鏈結
2024-11-14 08:48
舊版 Transformers trainer 使用 gradient accumulation 產生的 loss 比未使用 gradient accumulate 的 loss 還高的高中等級數學恆等式證明 利用正數相除大於等於1,最後再用完全平方式大於等於0來證明。 唉 我希望 transformers 已經把這 bug 都修好了,我可不是土豪可以不用 gradient accumulation 來訓練。
讚
16
回覆
1
轉發
2
作者
張庭瑜
tim.jeffrey10
粉絲
67
串文
48+
讚
回覆
轉發
24小時粉絲增長
無資料
互動率
(讚 + 回覆 + 轉發) / 粉絲數
28.36%
回覆 (BETA)
最先回覆的內容
發文後
用戶
內容
2 小時內
Waito Tsang
waito_1105
好像很重要🐱