Spaces:

flax-community
/

dalle-mini

Running

App Files Files Community

boris commited on Mar 30, 2022

Commit

361a994

•

1 Parent(s): 02b2308

feat(model): allow bias (#152)

Browse files

Files changed (4) hide show

src/dalle_mini/__init__.py +1 -1
src/dalle_mini/model/configuration.py +4 -2
src/dalle_mini/model/modeling.py +8 -8
tools/train/train.py +2 -0

src/dalle_mini/__init__.py CHANGED Viewed

@@ -1,3 +1,3 @@
-__version__ = "0.0.3"
 from .model import DalleBart, DalleBartProcessor


1	+ __version__ = "0.0.4"
2
3	from .model import DalleBart, DalleBartProcessor

src/dalle_mini/model/configuration.py CHANGED Viewed

@@ -58,6 +58,7 @@ class DalleBartConfig(PretrainedFromWandbMixin, PretrainedConfig):
         tie_word_embeddings=False,  # different modalities and sizes
         do_sample=True,
         # transformer variants
         ln_type="layernorm",  # layer normalization type, "rmsnorm", "layernorm"
         ln_positions="normformer",  # layer normalization positions, "normformer", "swinv2", "cogview", "postln", "preln", "deepnet" (same as postln)
         use_head_scale=False,  # used in NormFormer
@@ -65,7 +66,7 @@ class DalleBartConfig(PretrainedFromWandbMixin, PretrainedConfig):
         tau_init=0.05,  # used only in cosine attention (Swin v2)
         use_deepnet_scaling=False,  # used in Deepnet
         use_glu=False,  # "GLU Variants Improve Transformer"
-        use_alibi=False,  # from "Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation"
         sinkhorn_iters=1,  # used in SinkFormers
         use_final_ln_encoder=False,  # final layer normalization in encoder
         use_final_ln_decoder=False,  # final layer normalization in decoder
@@ -77,7 +78,7 @@ class DalleBartConfig(PretrainedFromWandbMixin, PretrainedConfig):
         self.normalize_text = normalize_text
         # transformer variants
-        self.use_head_scale = use_head_scale  # per Normformer
         assert ln_type in [
             "rmsnorm",
             "layernorm",
@@ -92,6 +93,7 @@ class DalleBartConfig(PretrainedFromWandbMixin, PretrainedConfig):
             "postln",
             "preln",
         ], "ln_positions must be 'normformer', 'swinv2', 'cogview', 'postln', 'preln'"
         assert use_alibi is False, "use_alibi is not supported yet"
         self.ln_positions = ln_positions
         self.use_cosine_attention = use_cosine_attention

         tie_word_embeddings=False,  # different modalities and sizes
         do_sample=True,
         # transformer variants
+        use_bias=False,  # use bias in attention and dense layers (except for lm_head)
         ln_type="layernorm",  # layer normalization type, "rmsnorm", "layernorm"
         ln_positions="normformer",  # layer normalization positions, "normformer", "swinv2", "cogview", "postln", "preln", "deepnet" (same as postln)
         use_head_scale=False,  # used in NormFormer
         tau_init=0.05,  # used only in cosine attention (Swin v2)
         use_deepnet_scaling=False,  # used in Deepnet
         use_glu=False,  # "GLU Variants Improve Transformer"
+        use_alibi=False,  # Not implemented yet - from "Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation"
         sinkhorn_iters=1,  # used in SinkFormers
         use_final_ln_encoder=False,  # final layer normalization in encoder
         use_final_ln_decoder=False,  # final layer normalization in decoder
         self.normalize_text = normalize_text
         # transformer variants
+        self.use_bias = use_bias
         assert ln_type in [
             "rmsnorm",
             "layernorm",
             "postln",
             "preln",
         ], "ln_positions must be 'normformer', 'swinv2', 'cogview', 'postln', 'preln'"
+        self.use_head_scale = use_head_scale
         assert use_alibi is False, "use_alibi is not supported yet"
         self.ln_positions = ln_positions
         self.use_cosine_attention = use_cosine_attention

src/dalle_mini/model/modeling.py CHANGED Viewed

@@ -444,7 +444,7 @@ class GLU(nn.Module):
         w = nn.Dense(
             self.ffn_dim,
             dtype=self.dtype,
-            use_bias=False,
             kernel_init=deepnet_init(gain)
             if self.config.use_deepnet_scaling
             else jax.nn.initializers.normal(self.config.init_std),
@@ -453,7 +453,7 @@ class GLU(nn.Module):
         v = nn.Dense(
             self.ffn_dim,
             dtype=self.dtype,
-            use_bias=False,
             kernel_init=deepnet_init(gain)
             if self.config.use_deepnet_scaling
             else jax.nn.initializers.normal(self.config.init_std),
@@ -473,7 +473,7 @@ class GLU(nn.Module):
         x = nn.Dense(
             self.embed_dim,
             dtype=self.dtype,
-            use_bias=False,
             kernel_init=deepnet_init(gain)
             if self.config.use_deepnet_scaling
             else jax.nn.initializers.normal(self.config.init_std),
@@ -509,7 +509,7 @@ class FFN(nn.Module):
         x = nn.Dense(
             self.ffn_dim,
             dtype=self.dtype,
-            use_bias=False,
             kernel_init=deepnet_init(gain)
             if self.config.use_deepnet_scaling
             else jax.nn.initializers.normal(self.config.init_std),
@@ -528,7 +528,7 @@ class FFN(nn.Module):
         x = nn.Dense(
             self.embed_dim,
             dtype=self.dtype,
-            use_bias=False,
             kernel_init=deepnet_init(gain)
             if self.config.use_deepnet_scaling
             else jax.nn.initializers.normal(self.config.init_std),
@@ -580,7 +580,7 @@ class FlaxBartEncoderLayer(nn.Module):
             embed_dim=embed_dim,
             num_heads=self.config.encoder_attention_heads,
             dropout=self.config.attention_dropout,
-            bias=False,
             dtype=self.dtype,
             is_encoder=True,
         )(hidden_states=hidden_states, attention_mask=attention_mask)
@@ -686,7 +686,7 @@ class FlaxBartDecoderLayer(nn.Module):
             num_heads=self.config.decoder_attention_heads,
             dropout=self.config.attention_dropout,
             causal=True,
-            bias=False,
             dtype=self.dtype,
             is_encoder=False,
         )(
@@ -724,7 +724,7 @@ class FlaxBartDecoderLayer(nn.Module):
                 embed_dim=embed_dim,
                 num_heads=self.config.decoder_attention_heads,
                 dropout=self.config.attention_dropout,
-                bias=False,
                 dtype=self.dtype,
                 is_encoder=False,
             )(

         w = nn.Dense(
             self.ffn_dim,
             dtype=self.dtype,
+            use_bias=self.config.use_bias,
             kernel_init=deepnet_init(gain)
             if self.config.use_deepnet_scaling
             else jax.nn.initializers.normal(self.config.init_std),
         v = nn.Dense(
             self.ffn_dim,
             dtype=self.dtype,
+            use_bias=self.config.use_bias,
             kernel_init=deepnet_init(gain)
             if self.config.use_deepnet_scaling
             else jax.nn.initializers.normal(self.config.init_std),
         x = nn.Dense(
             self.embed_dim,
             dtype=self.dtype,
+            use_bias=self.config.use_bias,
             kernel_init=deepnet_init(gain)
             if self.config.use_deepnet_scaling
             else jax.nn.initializers.normal(self.config.init_std),
         x = nn.Dense(
             self.ffn_dim,
             dtype=self.dtype,
+            use_bias=self.config.use_bias,
             kernel_init=deepnet_init(gain)
             if self.config.use_deepnet_scaling
             else jax.nn.initializers.normal(self.config.init_std),
         x = nn.Dense(
             self.embed_dim,
             dtype=self.dtype,
+            use_bias=self.config.use_bias,
             kernel_init=deepnet_init(gain)
             if self.config.use_deepnet_scaling
             else jax.nn.initializers.normal(self.config.init_std),
             embed_dim=embed_dim,
             num_heads=self.config.encoder_attention_heads,
             dropout=self.config.attention_dropout,
+            bias=self.config.use_bias,
             dtype=self.dtype,
             is_encoder=True,
         )(hidden_states=hidden_states, attention_mask=attention_mask)
             num_heads=self.config.decoder_attention_heads,
             dropout=self.config.attention_dropout,
             causal=True,
+            bias=self.config.use_bias,
             dtype=self.dtype,
             is_encoder=False,
         )(
                 embed_dim=embed_dim,
                 num_heads=self.config.decoder_attention_heads,
                 dropout=self.config.attention_dropout,
+                bias=self.config.use_bias,
                 dtype=self.dtype,
                 is_encoder=False,
             )(

tools/train/train.py CHANGED Viewed

@@ -49,6 +49,7 @@ from scalable_shampoo.distributed_shampoo import GraftingType, distributed_shamp
 from tqdm import tqdm
 from transformers import HfArgumentParser
 from dalle_mini.data import Dataset
 from dalle_mini.model import (
     DalleBart,
@@ -675,6 +676,7 @@ def main():
                     "transformers": transformers.__version__,
                     "datasets": datasets.__version__,
                     "wandb": wandb.__version__,
                 },
             }
         )

 from tqdm import tqdm
 from transformers import HfArgumentParser
+import dalle_mini
 from dalle_mini.data import Dataset
 from dalle_mini.model import (
     DalleBart,
                     "transformers": transformers.__version__,
                     "datasets": datasets.__version__,
                     "wandb": wandb.__version__,
+                    "dalle_mini": dalle_mini.__version__,
                 },
             }
         )