first commit

Browse files

Files changed (7) hide show

.gitattributes +2 -0
config.json +3 -0
embedding_model.ckpt +3 -0
hyperparams.yaml +64 -0
projector.ckpt +3 -0
train_hyp.yaml +252 -0
train_log.txt +50 -0

.gitattributes CHANGED Viewed

@@ -32,3 +32,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+embedding_model.ckpt filter=lfs diff=lfs merge=lfs -text
+projector.ckpt filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "speechbrain_interface": "SpeakerRecognition"
+}

embedding_model.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34414582d17cf0b5f9b63e44b46fe1217343b0211b97a0c0b1e7b07da9f3b58f
+size 84883955

hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,64 @@

+# ############################################################################
+# Model: ECAPA big for Speaker verification
+# ############################################################################
+# Feature parameters
+n_mels: 80
+# Pretrain folder (HuggingFace)
+pretrained_path: gorinars/sb-ecapa-vggsound-uvgscl
+# Output parameters
+out_n_neurons: 308
+# Model params
+compute_features: !new:speechbrain.lobes.features.Fbank
+  n_mels: 80
+  left_frames: 0
+  right_frames: 0
+  deltas: false
+  sample_rate: 16000
+  n_fft: 400
+  win_length: 25
+  hop_length: 10
+  f_min: 0
+mean_var_norm: !new:speechbrain.processing.features.InputNormalization
+    norm_type: sentence
+    std_norm: False
+embedding_model: !new:speechbrain.nnet.containers.LengthsCapableSequential
+    input_shape: [null, 1, null]
+    embedding: !new:speechbrain.lobes.models.ECAPA_TDNN.ECAPA_TDNN
+        input_size: !ref <n_mels>
+        channels: [1024, 1024, 1024, 1024, 3072]
+        kernel_sizes: [5, 3, 3, 3, 1]
+        dilations: [1, 2, 3, 4, 1]
+        groups: [1, 1, 1, 1, 1]
+        attention_channels: 128
+        lin_neurons: 256
+    projector: !new:crytorch.models.components.pann.SimSiamProjector
+        input_size: 256
+        hidden_size: 256
+        output_size: 256
+        norm_type: bn
+modules:
+    compute_features: !ref <compute_features>
+    mean_var_norm: !ref <mean_var_norm>
+    embedding_model: !ref <embedding_model>
+label_encoder: !new:speechbrain.dataio.encoder.CategoricalEncoder
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+    loadables:
+        embedding: !ref <embedding_model.embedding>
+        projector: !ref <embedding_model.projector>
+    paths:
+        embedding: !ref <pretrained_path>/embedding_model.ckpt
+        projector: !ref <pretrained_path>/projector.ckpt

projector.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c890e8ca36066d9a30090ac1835ac6fafd6f03435dc4bdcfcafd44c64c02cbcf
+size 538555

train_hyp.yaml ADDED Viewed

	@@ -0,0 +1,252 @@

+# Generated 2023-02-12 from:
+# /home/agorin/cssl_sound/hparams/ecapa_vgg.yaml
+# yamllint disable
+# File              : supclr_train.yaml
+# Author            : Zhepei Wang <zhepeiw2@illinois.edu>
+# Date              : 27.01.2022
+# Last Modified Date: 31.03.2022
+# Last Modified By  : Zhepei Wang <zhepeiw2@illinois.edu>
+seed: 2022
+__set_seed: !apply:torch.manual_seed [2022]
+np_rng: !new:numpy.random.RandomState [2022]
+resume_interrupt: false
+resume_task_idx: 0
+balanced_cry: false
+time_stamp: 2023-02-12+21-11-02
+experiment_name: ecapa_vgg
+# output_folder: !ref results/<experiment_name>/<seed>
+output_base: results #/home/agorin/datasets/results_cssl
+output_folder: results/2023-02-12+21-11-02_seed_2022+ecapa_vgg
+train_log: results/2023-02-12+21-11-02_seed_2022+ecapa_vgg/train_log.txt
+save_folder: results/2023-02-12+21-11-02_seed_2022+ecapa_vgg/save
+# Number of classes
+n_classes: 308
+num_tasks: 1
+# cont learning setup
+task_classes: &id001 !apply:utils.prepare_task_classes
+  num_classes: 308
+  num_tasks: 1
+  seed: 2022
+replay_num_keep: 0
+use_mixup: false
+mixup_alpha: 0.4
+train_duration: 4.0
+# Training parameters
+number_of_epochs: 50
+batch_size: 128
+# lr: 0.001
+# base_lr: 0.00000001
+# max_lr: !ref <lr>
+# step_size: 65000
+warmup_epochs: 5
+warmup_lr: 0.0
+base_lr: 0.015
+final_lr: 5e-09
+# dataset
+sample_rate: 16000
+data_folder: /home/agorin/datasets/VGG-Sound
+label_encoder_path: ./dataset/label_encoder_vggsound_ordered.txt
+prepare_split_csv_fn: !name:dataset.prepare_vggsound2.prepare_split
+  root_dir: /home/agorin/datasets/VGG-Sound
+  output_dir: results/2023-02-12+21-11-02_seed_2022+ecapa_vgg/save
+  task_classes: *id001
+  train_split: 0.8
+  seed: 2022
+train_dataloader_opts:
+  batch_size: 128
+  num_workers: 8
+  shuffle: true
+  drop_last: true
+valid_dataloader_opts:
+  batch_size: 32
+  num_workers: 8
+# Experiment params
+auto_mix_prec: false # True # True # Set it to True for mixed precision
+# Feature parameters
+n_mels: 80
+left_frames: 0
+right_frames: 0
+deltas: false
+amp_to_db: false
+normalize: true
+win_length: 25
+hop_length: 10
+n_fft: 400
+f_min: 0
+use_time_roll: false
+use_freq_shift: false
+emb_dim: 256
+emb_norm_type: bn
+proj_norm_type: bn
+# augmentation
+# time_domain_aug: !new:speechbrain.lobes.augment.TimeDomainSpecAugment
+#     sample_rate: !ref <sample_rate>
+#     # drop_chunk_count_high: 2
+#     # drop_chunk_noise_factor: 0.05
+#     speeds: [90, 95, 100, 105, 110]
+#     drop_freq_count_high: 4
+#     drop_chunk_count_high: 3
+#     # drop_chunk_length_low: 1000
+#     # drop_chunk_length_high: 5000
+spec_domain_aug: !new:augmentation.TFAugmentation
+  time_warp: true
+  time_warp_window: 8
+  freq_mask: true
+  freq_mask_width: !tuple (0, 10)
+  n_freq_mask: 2
+  time_mask: true
+  time_mask_width: !tuple (0, 10)
+  n_time_mask: 2
+  replace_with_zero: true
+  time_roll: false
+  time_roll_limit: !tuple (0, 200)
+  freq_shift: false
+  freq_shift_limit: !tuple (-10, 10)
+# Functions
+compute_features: &id002 !new:speechbrain.lobes.features.Fbank
+  n_mels: 80
+  left_frames: 0
+  right_frames: 0
+  deltas: false
+  sample_rate: 16000
+  n_fft: 400
+  win_length: 25
+  hop_length: 10
+  f_min: 0
+mean_var_norm: &id007 !new:speechbrain.processing.features.InputNormalization
+  norm_type: sentence
+  std_norm: false
+embedding_model: &id003 !new:speechbrain.lobes.models.ECAPA_TDNN.ECAPA_TDNN
+  input_size: 80
+  channels: [1024, 1024, 1024, 1024, 3072]
+  kernel_sizes: [5, 3, 3, 3, 1]
+  dilations: [1, 2, 3, 4, 1]
+  groups: [1, 1, 1, 1, 1]
+  attention_channels: 128
+  lin_neurons: 256
+# embedding_model: !new:models.pann.Cnn14
+# mel_bins: !ref <n_mels>
+# emb_dim: !ref <emb_dim>
+# norm_type: !ref <emb_norm_type>
+projector: &id005 !new:models.modules.SimSiamProjector
+  input_size: 256
+  hidden_size: 256
+  output_size: 256
+  norm_type: bn
+predictor: &id006 !new:models.modules.SimSiamPredictor
+  input_size: 256
+  hidden_size: 128
+  norm_type: bn
+classifier: &id004 !new:models.modules.Classifier
+  input_size: 256
+  output_size: 308
+modules:
+  compute_features: *id002
+  embedding_model: *id003
+  classifier: *id004
+  projector: *id005
+  predictor: *id006
+  mean_var_norm: *id007
+ssl_weight: 1.
+compute_simclr_cost: !new:losses.SimCLRLoss
+  tau: 0.5
+sup_weight: 0.
+compute_sup_cost: !new:losses.LogSoftmaxWithProbWrapper
+  loss_fn: !new:torch.nn.Identity
+dist_weight: 0
+compute_dist_cost: !new:losses.SimCLRLoss
+  tau: 0.5
+acc_metric: !name:speechbrain.utils.Accuracy.AccuracyStats
+# opt_class: !name:torch.optim.Adam
+#     lr: !ref <base_lr>
+#     weight_decay: 0.0005
+#
+# lr_scheduler_fn: !name:speechbrain.nnet.schedulers.CyclicLRScheduler
+#     base_lr: !ref <final_lr>
+#     max_lr: !ref <base_lr>
+#     step_size: 888
+opt_class: !name:torch.optim.SGD
+  lr: 0.015
+  weight_decay: 0.0005
+  momentum: 0.9
+lr_scheduler_fn: !name:schedulers.SimSiamCosineScheduler
+  warmup_epochs: 5
+  warmup_lr: 0.0
+  num_epochs: 50
+  base_lr: 0.015
+  final_lr: 5e-09
+  steps_per_epoch: 200
+  constant_predictor_lr: true
+epoch_counter_fn: !name:speechbrain.utils.epoch_loop.EpochCounter
+  limit: 50
+datapoint_counter: &id008 !new:utils.DatapointCounter
+#prev_checkpointer: null
+#prev_checkpointer: !new:speechbrain.utils.checkpoints.Checkpointer
+#     checkpoints_dir: /home/agorin/vgg_offline/2022-04-13+23-33-21_seed_2022+ssl_offline/save/task0
+# # Logging + checkpoints
+checkpointer: !new:speechbrain.utils.checkpoints.Checkpointer
+  checkpoints_dir: results/2023-02-12+21-11-02_seed_2022+ecapa_vgg/save
+recoverables:
+  embedding_model: *id003
+  classifier: *id004
+  projector: *id005
+  predictor: *id006
+  normalizer: *id007
+  datapoint_counter: *id008
+ssl_checkpoints_dir:      # /home/agorin/vgg_offline/2022-04-13+23-33-21_seed_2022+ssl_offline/save
+train_logger: !new:speechbrain.utils.train_logger.FileTrainLogger
+  save_file: results/2023-02-12+21-11-02_seed_2022+ecapa_vgg/train_log.txt
+# wandb
+use_wandb: false
+train_log_frequency: 20
+wandb_logger_fn: !name:utils.MyWandBLogger
+  initializer: !name:wandb.init
+  entity: CAL
+  project: cssl_sound
+  name: 2023-02-12+21-11-02+seed_2022+ecapa_vgg
+  dir: results/2023-02-12+21-11-02_seed_2022+ecapa_vgg
+  reinit: true
+  yaml_config: hparams/vgg/supclr_train.yaml
+  resume: false

train_log.txt ADDED Viewed

	@@ -0,0 +1,50 @@

+epoch: 1, lr: 3.00e-03, datapoints_seen: 167808 - train loss: 4.13
+epoch: 2, lr: 5.99e-03, datapoints_seen: 335616 - train loss: 3.95
+epoch: 3, lr: 8.99e-03, datapoints_seen: 503424 - train loss: 3.90
+epoch: 4, lr: 1.20e-02, datapoints_seen: 671232 - train loss: 3.87
+epoch: 5, lr: 1.50e-02, datapoints_seen: 839040 - train loss: 3.85
+epoch: 6, lr: 1.50e-02, datapoints_seen: 1006848 - train loss: 3.84
+epoch: 7, lr: 1.49e-02, datapoints_seen: 1174656 - train loss: 3.82
+epoch: 8, lr: 1.48e-02, datapoints_seen: 1342464 - train loss: 3.82
+epoch: 9, lr: 1.47e-02, datapoints_seen: 1510272 - train loss: 3.81
+epoch: 10, lr: 1.45e-02, datapoints_seen: 1678080 - train loss: 3.80
+epoch: 11, lr: 1.44e-02, datapoints_seen: 1845888 - train loss: 3.80
+epoch: 12, lr: 1.41e-02, datapoints_seen: 2013696 - train loss: 3.80
+epoch: 13, lr: 1.39e-02, datapoints_seen: 2181504 - train loss: 3.79
+epoch: 14, lr: 1.36e-02, datapoints_seen: 2349312 - train loss: 3.79
+epoch: 15, lr: 1.32e-02, datapoints_seen: 2517120 - train loss: 3.79
+epoch: 16, lr: 1.29e-02, datapoints_seen: 2684928 - train loss: 3.79
+epoch: 17, lr: 1.25e-02, datapoints_seen: 2852736 - train loss: 3.78
+epoch: 18, lr: 1.21e-02, datapoints_seen: 3020544 - train loss: 3.78
+epoch: 19, lr: 1.17e-02, datapoints_seen: 3188352 - train loss: 3.78
+epoch: 20, lr: 1.13e-02, datapoints_seen: 3356160 - train loss: 3.78
+epoch: 21, lr: 1.08e-02, datapoints_seen: 3523968 - train loss: 3.78
+epoch: 22, lr: 1.03e-02, datapoints_seen: 3691776 - train loss: 3.77
+epoch: 23, lr: 9.83e-03, datapoints_seen: 3859584 - train loss: 3.77
+epoch: 24, lr: 9.32e-03, datapoints_seen: 4027392 - train loss: 3.77
+epoch: 25, lr: 8.81e-03, datapoints_seen: 4195200 - train loss: 3.77
+epoch: 26, lr: 8.29e-03, datapoints_seen: 4363008 - train loss: 3.77
+epoch: 27, lr: 7.77e-03, datapoints_seen: 4530816 - train loss: 3.76
+epoch: 28, lr: 7.25e-03, datapoints_seen: 4698624 - train loss: 3.76
+epoch: 29, lr: 6.73e-03, datapoints_seen: 4866432 - train loss: 3.76
+epoch: 30, lr: 6.21e-03, datapoints_seen: 5034240 - train loss: 3.76
+epoch: 31, lr: 5.70e-03, datapoints_seen: 5202048 - train loss: 3.76
+epoch: 32, lr: 5.19e-03, datapoints_seen: 5369856 - train loss: 3.75
+epoch: 33, lr: 4.70e-03, datapoints_seen: 5537664 - train loss: 3.75
+epoch: 34, lr: 4.22e-03, datapoints_seen: 5705472 - train loss: 3.75
+epoch: 35, lr: 3.76e-03, datapoints_seen: 5873280 - train loss: 3.75
+epoch: 36, lr: 3.32e-03, datapoints_seen: 6041088 - train loss: 3.75
+epoch: 37, lr: 2.89e-03, datapoints_seen: 6208896 - train loss: 3.74
+epoch: 38, lr: 2.49e-03, datapoints_seen: 6376704 - train loss: 3.74
+epoch: 39, lr: 2.12e-03, datapoints_seen: 6544512 - train loss: 3.74
+epoch: 40, lr: 1.77e-03, datapoints_seen: 6712320 - train loss: 3.74
+epoch: 41, lr: 1.44e-03, datapoints_seen: 6880128 - train loss: 3.73
+epoch: 42, lr: 1.15e-03, datapoints_seen: 7047936 - train loss: 3.73
+epoch: 43, lr: 8.86e-04, datapoints_seen: 7215744 - train loss: 3.73
+epoch: 44, lr: 6.56e-04, datapoints_seen: 7383552 - train loss: 3.73
+epoch: 45, lr: 4.59e-04, datapoints_seen: 7551360 - train loss: 3.73
+epoch: 46, lr: 2.96e-04, datapoints_seen: 7719168 - train loss: 3.73
+epoch: 47, lr: 1.68e-04, datapoints_seen: 7886976 - train loss: 3.73
+epoch: 48, lr: 7.57e-05, datapoints_seen: 8054784 - train loss: 3.73
+epoch: 49, lr: 1.97e-05, datapoints_seen: 8222592 - train loss: 3.72
+epoch: 50, lr: 3.26e-08, datapoints_seen: 8390400 - train loss: 3.72