Spaces:

flax-community
/

dalle-mini

Running

valhalla commited on Oct 19, 2021

Commit

95a8ed2

•

1 Parent(s): 7774483

add gradient checkpointing

Files changed (1) hide show

dalle_mini/modeling_bart_flax.py CHANGED Viewed

@@ -252,7 +252,8 @@ class FlaxBartEncoderLayer(nn.Module):
             kernel_init=jax.nn.initializers.normal(self.config.init_std),
         )
         self.final_layer_norm = nn.LayerNorm(dtype=self.dtype)
     def __call__(
         self,
         hidden_states: jnp.ndarray,
@@ -343,7 +344,8 @@ class FlaxBartDecoderLayer(nn.Module):
             kernel_init=jax.nn.initializers.normal(self.config.init_std),
         )
         self.final_layer_norm = nn.LayerNorm(dtype=self.dtype)
     def __call__(
         self,
         hidden_states: jnp.ndarray,

             kernel_init=jax.nn.initializers.normal(self.config.init_std),
         )
         self.final_layer_norm = nn.LayerNorm(dtype=self.dtype)
+    @nn.remat
     def __call__(
         self,
         hidden_states: jnp.ndarray,
             kernel_init=jax.nn.initializers.normal(self.config.init_std),
         )
         self.final_layer_norm = nn.LayerNorm(dtype=self.dtype)
+    @nn.remat
     def __call__(
         self,
         hidden_states: jnp.ndarray,