Spaces:

flax-community
/

dalle-mini

Running

boris commited on Jan 16, 2022

Commit

4fa53a5

•

1 Parent(s): 193c88c

feat(train): use MultiSteps for gradient accumulation

Files changed (1) hide show

tools/train/train.py CHANGED Viewed

@@ -647,9 +647,7 @@ def main():
     # add gradient accumulation
     if training_args.gradient_accumulation_steps > 1:
-        optimizer = optax.chain(
-            optax.apply_every(training_args.gradient_accumulation_steps), optimizer
-        )
     # Setup train state
     state = TrainState.create(
@@ -693,7 +691,7 @@ def main():
         metrics = {
             "loss": loss,
-            "learning_rate": learning_rate_fn(state.step),
         }
         metrics = jax.lax.pmean(metrics, axis_name="batch")

     # add gradient accumulation
     if training_args.gradient_accumulation_steps > 1:
+        optimizer = optax.MultiSteps(optimizer, training_args.gradient_accumulation_steps)
     # Setup train state
     state = TrainState.create(
         metrics = {
             "loss": loss,
+            "learning_rate": learning_rate_fn(state.step // training_args.gradient_accumulation_steps),
         }
         metrics = jax.lax.pmean(metrics, axis_name="batch")