雖然這些package真的是很好用，但我沒想到有這麼多小問題，我這論文越來越難做😭 1. DeepSpeed: ZeRO-1 ZeRO-2 overlap communication，這bug到現在還沒修，但他的code我是真的看不懂不然我很想試著修😥 2. Transformers: Gradient Accumulation 陸陸續續一直在修，修了好久，希望修完了。前幾個禮拜還發現他跟DeepSpeed engine有loss scaling的bug 3. Accelerate: data_seed argument 只有對RandomSampler有作用，其他的例如LengthGroupSampler還是只能靠global seed實現 4. Transformers: weight decay不應該應用於LayerNorm相關的module，但他只檢查了nn.LayerNorm，但現在越來越多model會自己實現類似的module，這個在create parameter group的時候應該要同時考慮進去，這個有人發PR了要等下個版本。

串文

2025-02-05 08:46

讚

回覆

轉發

作者

張庭瑜
tim.jeffrey10

粉絲

串文

48+

讚

回覆

轉發

24小時粉絲增長

無資料

互動率

(讚 + 回覆 + 轉發) / 粉絲數

4.48%

回覆 (BETA)

最先回覆的內容
發文後	用戶	內容