2024-11-14 08:48
舊版 Transformers trainer 使用 gradient accumulation 產生的 loss 比未使用 gradient accumulate 的 loss 還高的高中等級數學恆等式證明 利用正數相除大於等於1,最後再用完全平方式大於等於0來證明。 唉 我希望 transformers 已經把這 bug 都修好了,我可不是土豪可以不用 gradient accumulation 來訓練。
16
回覆
1
轉發
2

回覆

轉發

24小時粉絲增長

無資料

互動率

(讚 + 回覆 + 轉發) / 粉絲數
28.36%

回覆 (BETA)

最先回覆的內容
發文後用戶內容
2 小時內
profile
Waito Tsang
waito_1105
好像很重要🐱

© 2025 Threadser.net. 版權所有。

Threadser.net 與 Meta Platforms, Inc. 無關,未經其認可、贊助或特別批准。

Threadser.net 也不與 Meta 的"Threads" 產品存在任何關聯。