2025-02-05 08:46
雖然這些package真的是很好用,但我沒想到有這麼多小問題,我這論文越來越難做😭 1. DeepSpeed: ZeRO-1 ZeRO-2 overlap communication,這bug到現在還沒修,但他的code我是真的看不懂不然我很想試著修😥 2. Transformers: Gradient Accumulation 陸陸續續一直在修,修了好久,希望修完了。前幾個禮拜還發現他跟DeepSpeed engine有loss scaling的bug 3. Accelerate: data_seed argument 只有對RandomSampler有作用,其他的例如LengthGroupSampler還是只能靠global seed實現 4. Transformers: weight decay不應該應用於LayerNorm相關的module,但他只檢查了nn.LayerNorm,但現在越來越多model會自己實現類似的module,這個在create parameter group的時候應該要同時考慮進去,這個有人發PR了要等下個版本。
2
回覆
1
轉發

回覆

轉發

24小時粉絲增長

無資料

互動率

(讚 + 回覆 + 轉發) / 粉絲數
4.48%

回覆 (BETA)

最先回覆的內容
發文後用戶內容

© 2025 Threadser.net. 版權所有。

Threadser.net 與 Meta Platforms, Inc. 無關,未經其認可、贊助或特別批准。

Threadser.net 也不與 Meta 的"Threads" 產品存在任何關聯。