2025-02-05 08:46
雖然這些package真的是很好用,但我沒想到有這麼多小問題,我這論文越來越難做😭
1. DeepSpeed: ZeRO-1 ZeRO-2 overlap communication,這bug到現在還沒修,但他的code我是真的看不懂不然我很想試著修😥
2. Transformers: Gradient Accumulation 陸陸續續一直在修,修了好久,希望修完了。前幾個禮拜還發現他跟DeepSpeed engine有loss scaling的bug
3. Accelerate: data_seed argument 只有對RandomSampler有作用,其他的例如LengthGroupSampler還是只能靠global seed實現
4. Transformers: weight decay不應該應用於LayerNorm相關的module,但他只檢查了nn.LayerNorm,但現在越來越多model會自己實現類似的module,這個在create parameter group的時候應該要同時考慮進去,這個有人發PR了要等下個版本。