noanabeshima
/

tiny_model

Model card Files Files and versions Community

noanabeshima commited on Jul 25, 2024

Commit

d41c1ab

verified ·

1 Parent(s): 78c7da6

Upload folder using huggingface_hub

Browse files

Files changed (48) hide show

res_pre_attn/Ra0_S-1_R1_P0.pt +3 -0
res_pre_attn/Ra0_S-1_R1_P0_config.json +38 -0
res_pre_attn/Ra0_S-2_R1_P0.pt +3 -0
res_pre_attn/Ra0_S-2_R1_P0_config.json +38 -0
res_pre_attn/Ra0_S-3_R1_P0.pt +3 -0
res_pre_attn/Ra0_S-3_R1_P0_config.json +38 -0
res_pre_attn/Ra0_S-4_R1_P0.pt +3 -0
res_pre_attn/Ra0_S-4_R1_P0_config.json +38 -0
res_pre_attn/Ra0_S-5_R1_P0.pt +3 -0
res_pre_attn/Ra0_S-5_R1_P0_config.json +38 -0
res_pre_attn/Ra0_S-6_R1_P0.pt +3 -0
res_pre_attn/Ra0_S-6_R1_P0_config.json +38 -0
res_pre_attn/Ra1_S-1_R1_P0.pt +3 -0
res_pre_attn/Ra1_S-1_R1_P0_config.json +38 -0
res_pre_attn/Ra1_S-2_R1_P0.pt +3 -0
res_pre_attn/Ra1_S-2_R1_P0_config.json +38 -0
res_pre_attn/Ra1_S-3_R1_P0.pt +3 -0
res_pre_attn/Ra1_S-3_R1_P0_config.json +38 -0
res_pre_attn/Ra1_S-4_R1_P0.pt +3 -0
res_pre_attn/Ra1_S-4_R1_P0_config.json +38 -0
res_pre_attn/Ra1_S-5_R1_P0.pt +3 -0
res_pre_attn/Ra1_S-5_R1_P0_config.json +38 -0
res_pre_attn/Ra1_S-6_R1_P0.pt +3 -0
res_pre_attn/Ra1_S-6_R1_P0_config.json +38 -0
res_pre_attn/Ra2_S-1_R1_P0.pt +3 -0
res_pre_attn/Ra2_S-1_R1_P0_config.json +38 -0
res_pre_attn/Ra2_S-2_R1_P0.pt +3 -0
res_pre_attn/Ra2_S-2_R1_P0_config.json +38 -0
res_pre_attn/Ra2_S-3_R1_P0.pt +3 -0
res_pre_attn/Ra2_S-3_R1_P0_config.json +38 -0
res_pre_attn/Ra2_S-4_R1_P0.pt +3 -0
res_pre_attn/Ra2_S-4_R1_P0_config.json +38 -0
res_pre_attn/Ra2_S-5_R1_P0.pt +3 -0
res_pre_attn/Ra2_S-5_R1_P0_config.json +38 -0
res_pre_attn/Ra2_S-6_R1_P0.pt +3 -0
res_pre_attn/Ra2_S-6_R1_P0_config.json +38 -0
res_pre_attn/Ra3_S-1_R1_P0.pt +3 -0
res_pre_attn/Ra3_S-1_R1_P0_config.json +38 -0
res_pre_attn/Ra3_S-2_R1_P0.pt +3 -0
res_pre_attn/Ra3_S-2_R1_P0_config.json +38 -0
res_pre_attn/Ra3_S-3_R1_P0.pt +3 -0
res_pre_attn/Ra3_S-3_R1_P0_config.json +38 -0
res_pre_attn/Ra3_S-4_R1_P0.pt +3 -0
res_pre_attn/Ra3_S-4_R1_P0_config.json +38 -0
res_pre_attn/Ra3_S-5_R1_P0.pt +3 -0
res_pre_attn/Ra3_S-5_R1_P0_config.json +38 -0
res_pre_attn/Ra3_S-6_R1_P0.pt +3 -0
res_pre_attn/Ra3_S-6_R1_P0_config.json +38 -0

res_pre_attn/Ra0_S-1_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:168696ab72886f38f5d97e585085e3a8ed8f518ecce43f5e8729e66a09ea967c
+size 153705088

res_pre_attn/Ra0_S-1_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -1,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra0_S-1_R1_P0"
+}

res_pre_attn/Ra0_S-2_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:492bca86760bce0fe1d4197a02cefd782badd6286102e5d8dd81f63abdad543d
+size 153705088

res_pre_attn/Ra0_S-2_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -2,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra0_S-2_R1_P0"
+}

res_pre_attn/Ra0_S-3_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66aa12e85224b5fbc7327ddbebbe2adc98cd2c3db640a3aba08c880e733f846f
+size 153705088

res_pre_attn/Ra0_S-3_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -3,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra0_S-3_R1_P0"
+}

res_pre_attn/Ra0_S-4_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d52b130e663b809bd8949f8b361b32b8a41af046b12d31de85f6be0b62534d8a
+size 153705088

res_pre_attn/Ra0_S-4_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -4,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra0_S-4_R1_P0"
+}

res_pre_attn/Ra0_S-5_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49cc2a7e45089eb83bcac6f525517d3704678fb227402f4c1f4a18ecfdc3ad40
+size 153705088

res_pre_attn/Ra0_S-5_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -5,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra0_S-5_R1_P0"
+}

res_pre_attn/Ra0_S-6_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed026ea5d3bbe516a03eeb08ba582fc80492c4ef73b529821144f4bf6903fc0e
+size 153705088

res_pre_attn/Ra0_S-6_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 0,
+  "l1_exp": -6,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra0_S-6_R1_P0"
+}

res_pre_attn/Ra1_S-1_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb793e5208c28a2f1f95a7b0d9335075b8fd8a86e7a4fd041469131dcc05cd84
+size 153705088

res_pre_attn/Ra1_S-1_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": -1,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra1_S-1_R1_P0"
+}

res_pre_attn/Ra1_S-2_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f27213da6eba34178d562cff99f0b80634ca5e7244e63dea4aacb15f98513056
+size 153705088

res_pre_attn/Ra1_S-2_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": -2,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra1_S-2_R1_P0"
+}

res_pre_attn/Ra1_S-3_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1753c457d61b78fed9133582c8fb2623e2bd4c216c5f596ac6d89726dcf5c781
+size 153705088

res_pre_attn/Ra1_S-3_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": -3,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra1_S-3_R1_P0"
+}

res_pre_attn/Ra1_S-4_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a2b170964fdb49676e3cbef24b250f093e557511d946c376ac1695d5a102dbd
+size 153705088

res_pre_attn/Ra1_S-4_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": -4,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra1_S-4_R1_P0"
+}

res_pre_attn/Ra1_S-5_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9d4de526c9389dfab48012beab25ab10b9f43508e37d198d1ab200b643027db
+size 153705088

res_pre_attn/Ra1_S-5_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": -5,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra1_S-5_R1_P0"
+}

res_pre_attn/Ra1_S-6_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f27664bd41b9a2f585b3f7e54b4bc1f36a1364848dfc1cf1ed934c0bbe253cf7
+size 153705088

res_pre_attn/Ra1_S-6_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 1,
+  "l1_exp": -6,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra1_S-6_R1_P0"
+}

res_pre_attn/Ra2_S-1_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b17d5b60a89465a4f754b2047143596e1c4b43a7b09071172f6c1178c637e952
+size 153705088

res_pre_attn/Ra2_S-1_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -1,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra2_S-1_R1_P0"
+}

res_pre_attn/Ra2_S-2_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71f7d678ad0283dac56b3e51c3496968ff25bd1f2ebebaf56b922f856079709e
+size 153705088

res_pre_attn/Ra2_S-2_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -2,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra2_S-2_R1_P0"
+}

res_pre_attn/Ra2_S-3_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:022b8b0b892cffab5a929a0b9c6b5a65dce8655d0a2e5264510637d82f75f441
+size 153705088

res_pre_attn/Ra2_S-3_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -3,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra2_S-3_R1_P0"
+}

res_pre_attn/Ra2_S-4_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eed0e84ef30a48e85c68b57423aa2c09f5d6ce812f47fea3933d8146522a9b70
+size 153705088

res_pre_attn/Ra2_S-4_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -4,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra2_S-4_R1_P0"
+}

res_pre_attn/Ra2_S-5_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24b9e4a1d45288357580a726fff2307798020dd9796ad4ba6ac7bcf9e8eeb0c4
+size 153705088

res_pre_attn/Ra2_S-5_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -5,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra2_S-5_R1_P0"
+}

res_pre_attn/Ra2_S-6_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c73d8a8bd6c1aaa84ea548081ad934c63918b9e8573df353fa0d8289279a47a
+size 153705088

res_pre_attn/Ra2_S-6_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 2,
+  "l1_exp": -6,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra2_S-6_R1_P0"
+}

res_pre_attn/Ra3_S-1_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7a29cd8f711cbcac6078d1887dd32b2d98562cde08befaddfdc0d60db9be391
+size 153705088

res_pre_attn/Ra3_S-1_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 3,
+  "l1_exp": -1,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra3_S-1_R1_P0"
+}

res_pre_attn/Ra3_S-2_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1bd39d50e0f200223c4b62f63ca37ab555ba377a34e196584b3098dc46f7e0c
+size 153705088

res_pre_attn/Ra3_S-2_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 3,
+  "l1_exp": -2,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra3_S-2_R1_P0"
+}

res_pre_attn/Ra3_S-3_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68baad0c607802ada81a30324ba3a4013e5eef8a1f1ca7b08121d20deaba0b91
+size 153705088

res_pre_attn/Ra3_S-3_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 3,
+  "l1_exp": -3,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra3_S-3_R1_P0"
+}

res_pre_attn/Ra3_S-4_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00382e4a254b88fcd9ca43bffea80815d2137d437ddbf3a3ea1eeb96782e39c0
+size 153705088

res_pre_attn/Ra3_S-4_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 3,
+  "l1_exp": -4,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra3_S-4_R1_P0"
+}

res_pre_attn/Ra3_S-5_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90bdacfe5c96776c7a0d41ed61ab386000909df6220365ff3de552c1e40e5235
+size 153705088

res_pre_attn/Ra3_S-5_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 3,
+  "l1_exp": -5,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra3_S-5_R1_P0"
+}

res_pre_attn/Ra3_S-6_R1_P0.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39dc91fef1df76ae356b6680c38a7c4cfe3898b1580f62773399dff8d94e3215
+size 153705088

res_pre_attn/Ra3_S-6_R1_P0_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "n_features": 25000,
+  "d_model": 768,
+  "lr_exp": -10,
+  "disable_comet": false,
+  "per_neuron_reinit_interval": 0,
+  "reservoir_time_discount": 0.995,
+  "reinit_interval": 800,
+  "max_reinit_neurons": 5000,
+  "reservoir_size": 5000,
+  "n_piles": 292,
+  "log_interval": 200,
+  "reinit_input_norm": "target_scaled",
+  "reinit_input": "x",
+  "reinit_norm_alpha": 0.3,
+  "data_loc": "attn_data",
+  "reinit_threshold": -6,
+  "scheduler": "wsd",
+  "layer_idx": 3,
+  "l1_exp": -6,
+  "neuron_reinit_percent": 0.85,
+  "beta1": 1,
+  "beta2": 4,
+  "reinit_target": "error",
+  "sparse_adam": false,
+  "run_template": "Ra{layer_idx}_S{l1_exp}_R{l1_ratio}_P{l1_p}",
+  "project_name": "res_pre_attn",
+  "decoder_bias": true,
+  "l1_beta": 0.99,
+  "alt_sparsity_loss": "log",
+  "l1_ratio": 1,
+  "l1_p": 0,
+  "optimizer": "sparse_adam",
+  "model_type": "res_A",
+  "adam_beta1": 0.5,
+  "adam_beta2": 0.9375,
+  "run_name": "Ra3_S-6_R1_P0"
+}