Training in progress, step 10

Browse files

Files changed (5) hide show

config.json +9 -72
model.safetensors +2 -2
runs/Jan18_11-52-35_71565f425e09/events.out.tfevents.1705578756.71565f425e09.1122.0 +3 -0
tokenizer_config.json +1 -0
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "facebook/mms-tts-vie",
   "activation_dropout": 0.1,
   "apply_spec_augment": true,
   "architectures": [
@@ -40,87 +40,43 @@
   "decoder_layerdrop": 0.1,
   "decoder_layers": 6,
   "decoder_start_token_id": 2,
-  "depth_separable_channels": 2,
-  "depth_separable_num_layers": 3,
-  "duration_predictor_dropout": 0.5,
-  "duration_predictor_filter_channels": 256,
-  "duration_predictor_flow_bins": 10,
-  "duration_predictor_kernel_size": 3,
-  "duration_predictor_num_flows": 4,
-  "duration_predictor_tail_bound": 5.0,
-  "encoder_attention_heads": 2,
   "encoder_ffn_dim": 3072,
   "encoder_layerdrop": 0.1,
-  "encoder_layers": 6,
   "encoder_max_relative_position": 160,
   "eos_token_id": 2,
   "feat_extract_activation": "gelu",
   "feat_extract_norm": "group",
   "feat_proj_dropout": 0.0,
-  "ffn_dim": 768,
-  "ffn_kernel_size": 3,
-  "flow_size": 192,
   "guided_attention_loss_num_heads": 2,
   "guided_attention_loss_scale": 10.0,
   "guided_attention_loss_sigma": 0.4,
-  "hidden_act": "relu",
   "hidden_dropout": 0.1,
-  "hidden_size": 192,
   "initializer_range": 0.02,
   "is_encoder_decoder": true,
   "layer_norm_eps": 1e-05,
-  "layerdrop": 0.1,
-  "leaky_relu_slope": 0.1,
   "mask_feature_length": 10,
   "mask_feature_min_masks": 0,
   "mask_feature_prob": 0.0,
   "mask_time_length": 10,
   "mask_time_min_masks": 2,
   "mask_time_prob": 0.05,
-  "max_speech_positions": 4000,
-  "max_text_positions": 450,
   "model_type": "speecht5",
-  "noise_scale": 0.667,
-  "noise_scale_duration": 0.8,
   "num_conv_pos_embedding_groups": 16,
   "num_conv_pos_embeddings": 128,
   "num_feat_extract_layers": 7,
   "num_mel_bins": 80,
-  "num_speakers": 1,
   "pad_token_id": 1,
   "positional_dropout": 0.1,
-  "posterior_encoder_num_wavenet_layers": 16,
-  "prior_encoder_num_flows": 4,
-  "prior_encoder_num_wavenet_layers": 4,
   "reduction_factor": 2,
-  "resblock_dilation_sizes": [
-    [
-      1,
-      3,
-      5
-    ],
-    [
-      1,
-      3,
-      5
-    ],
-    [
-      1,
-      3,
-      5
-    ]
-  ],
-  "resblock_kernel_sizes": [
-    3,
-    7,
-    11
-  ],
-  "sampling_rate": 16000,
   "scale_embedding": false,
   "speaker_embedding_dim": 512,
-  "speaker_embedding_size": 0,
-  "speaking_rate": 1.0,
-  "spectrogram_bins": 513,
   "speech_decoder_postnet_dropout": 0.5,
   "speech_decoder_postnet_kernel": 5,
   "speech_decoder_postnet_layers": 5,
@@ -130,26 +86,7 @@
   "speech_decoder_prenet_units": 256,
   "torch_dtype": "float32",
   "transformers_version": "4.35.2",
-  "upsample_initial_channel": 512,
-  "upsample_kernel_sizes": [
-    16,
-    16,
-    4,
-    4
-  ],
-  "upsample_rates": [
-    8,
-    8,
-    2,
-    2
-  ],
-  "use_bias": true,
   "use_cache": false,
   "use_guided_attention_loss": true,
-  "use_stochastic_duration_prediction": true,
-  "vocab_size": 95,
-  "wavenet_dilation_rate": 1,
-  "wavenet_dropout": 0.0,
-  "wavenet_kernel_size": 5,
-  "window_size": 4
 }

 {
+  "_name_or_path": "microsoft/speecht5_tts",
   "activation_dropout": 0.1,
   "apply_spec_augment": true,
   "architectures": [
   "decoder_layerdrop": 0.1,
   "decoder_layers": 6,
   "decoder_start_token_id": 2,
+  "encoder_attention_heads": 12,
   "encoder_ffn_dim": 3072,
   "encoder_layerdrop": 0.1,
+  "encoder_layers": 12,
   "encoder_max_relative_position": 160,
   "eos_token_id": 2,
   "feat_extract_activation": "gelu",
   "feat_extract_norm": "group",
   "feat_proj_dropout": 0.0,
   "guided_attention_loss_num_heads": 2,
   "guided_attention_loss_scale": 10.0,
   "guided_attention_loss_sigma": 0.4,
+  "hidden_act": "gelu",
   "hidden_dropout": 0.1,
+  "hidden_size": 768,
   "initializer_range": 0.02,
   "is_encoder_decoder": true,
   "layer_norm_eps": 1e-05,
   "mask_feature_length": 10,
   "mask_feature_min_masks": 0,
   "mask_feature_prob": 0.0,
   "mask_time_length": 10,
   "mask_time_min_masks": 2,
   "mask_time_prob": 0.05,
+  "max_length": 1876,
+  "max_speech_positions": 1876,
+  "max_text_positions": 600,
   "model_type": "speecht5",
   "num_conv_pos_embedding_groups": 16,
   "num_conv_pos_embeddings": 128,
   "num_feat_extract_layers": 7,
   "num_mel_bins": 80,
   "pad_token_id": 1,
   "positional_dropout": 0.1,
   "reduction_factor": 2,
   "scale_embedding": false,
   "speaker_embedding_dim": 512,
   "speech_decoder_postnet_dropout": 0.5,
   "speech_decoder_postnet_kernel": 5,
   "speech_decoder_postnet_layers": 5,
   "speech_decoder_prenet_units": 256,
   "torch_dtype": "float32",
   "transformers_version": "4.35.2",
   "use_cache": false,
   "use_guided_attention_loss": true,
+  "vocab_size": 81
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5640bab1fd7f591bae9eb5d3a5106575e81f9de02d50ceed94227e450a198328
-size 73714424

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e9a8ed04ba0fc2d1c16e528ae034a4371e416cff28e5ed277afcb1ccf82283b
+size 577789320

runs/Jan18_11-52-35_71565f425e09/events.out.tfevents.1705578756.71565f425e09.1122.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63e30dd6de25685876d87e9f680b3b91a8870d850d8e2b87f3e62e41833d9019
+size 6917

tokenizer_config.json CHANGED Viewed

@@ -59,5 +59,6 @@
   "processor_class": "SpeechT5Processor",
   "sp_model_kwargs": {},
   "tokenizer_class": "SpeechT5Tokenizer",
   "unk_token": "<unk>"
 }

   "processor_class": "SpeechT5Processor",
   "sp_model_kwargs": {},
   "tokenizer_class": "SpeechT5Tokenizer",
+  "trust_remote_code": false,
   "unk_token": "<unk>"
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d37d204bab59f02ac528e37c736f97443264a17423f3649029183d83011b5cc2
 size 4792

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3545375cd1e95128155f1f4cc6c3d17df840b2a952535b7cd8b2ef2714a0550
 size 4792