diff --git "a/finetuned/out.log" "b/finetuned/out.log"
--- "a/finetuned/out.log"
+++ "b/finetuned/out.log"
@@ -1,434 +1,434 @@
-2024-06-29 21:12:38,577 - INFO - allennlp.common.params - random_seed = 13370
-2024-06-29 21:12:38,577 - INFO - allennlp.common.params - numpy_seed = 1337
-2024-06-29 21:12:38,577 - INFO - allennlp.common.params - pytorch_seed = 133
-2024-06-29 21:12:38,578 - INFO - allennlp.common.checks - Pytorch version: 2.3.1+cu121
-2024-06-29 21:12:38,578 - INFO - allennlp.common.params - type = default
-2024-06-29 21:12:38,579 - INFO - allennlp.common.params - dataset_reader.type = compreno_ud_dataset_reader
-2024-06-29 21:12:38,579 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
-2024-06-29 21:12:38,579 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
-2024-06-29 21:12:38,579 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = xlm-roberta-base
-2024-06-29 21:12:38,579 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
-2024-06-29 21:12:38,579 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = None
-2024-06-29 21:12:38,579 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
-2024-06-29 21:12:40,263 - INFO - allennlp.common.params - train_data_path = data/train.conllu
-2024-06-29 21:12:40,264 - INFO - allennlp.common.params - datasets_for_vocab_creation = None
-2024-06-29 21:12:40,264 - INFO - allennlp.common.params - validation_dataset_reader = None
-2024-06-29 21:12:40,264 - INFO - allennlp.common.params - validation_data_path = data/validation.conllu
-2024-06-29 21:12:40,264 - INFO - allennlp.common.params - test_data_path = None
-2024-06-29 21:12:40,264 - INFO - allennlp.common.params - evaluate_on_test = False
-2024-06-29 21:12:40,264 - INFO - allennlp.common.params - batch_weight_key = 
-2024-06-29 21:12:40,264 - INFO - allennlp.common.params - data_loader.type = multiprocess
-2024-06-29 21:12:40,265 - INFO - allennlp.common.params - data_loader.batch_size = 24
-2024-06-29 21:12:40,265 - INFO - allennlp.common.params - data_loader.drop_last = False
-2024-06-29 21:12:40,265 - INFO - allennlp.common.params - data_loader.shuffle = True
-2024-06-29 21:12:40,265 - INFO - allennlp.common.params - data_loader.batch_sampler = None
-2024-06-29 21:12:40,265 - INFO - allennlp.common.params - data_loader.batches_per_epoch = None
-2024-06-29 21:12:40,265 - INFO - allennlp.common.params - data_loader.num_workers = 0
-2024-06-29 21:12:40,265 - INFO - allennlp.common.params - data_loader.max_instances_in_memory = None
-2024-06-29 21:12:40,265 - INFO - allennlp.common.params - data_loader.start_method = fork
-2024-06-29 21:12:40,265 - INFO - allennlp.common.params - data_loader.cuda_device = None
-2024-06-29 21:12:40,265 - INFO - allennlp.common.params - data_loader.quiet = False
-2024-06-29 21:12:40,265 - INFO - allennlp.common.params - data_loader.collate_fn = <allennlp.data.data_loaders.data_collator.DefaultDataCollator object at 0x71b4cd025ee0>
-2024-06-29 21:12:40,265 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
-2024-06-29 21:12:43,950 - INFO - allennlp.common.params - validation_data_loader.type = multiprocess
-2024-06-29 21:12:43,950 - INFO - allennlp.common.params - validation_data_loader.batch_size = 24
-2024-06-29 21:12:43,950 - INFO - allennlp.common.params - validation_data_loader.drop_last = False
-2024-06-29 21:12:43,950 - INFO - allennlp.common.params - validation_data_loader.shuffle = False
-2024-06-29 21:12:43,951 - INFO - allennlp.common.params - validation_data_loader.batch_sampler = None
-2024-06-29 21:12:43,951 - INFO - allennlp.common.params - validation_data_loader.batches_per_epoch = None
-2024-06-29 21:12:43,951 - INFO - allennlp.common.params - validation_data_loader.num_workers = 0
-2024-06-29 21:12:43,951 - INFO - allennlp.common.params - validation_data_loader.max_instances_in_memory = None
-2024-06-29 21:12:43,951 - INFO - allennlp.common.params - validation_data_loader.start_method = fork
-2024-06-29 21:12:43,951 - INFO - allennlp.common.params - validation_data_loader.cuda_device = None
-2024-06-29 21:12:43,951 - INFO - allennlp.common.params - validation_data_loader.quiet = False
-2024-06-29 21:12:43,951 - INFO - allennlp.common.params - validation_data_loader.collate_fn = <allennlp.data.data_loaders.data_collator.DefaultDataCollator object at 0x71b4cd025ee0>
-2024-06-29 21:12:43,951 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
-2024-06-29 21:12:44,636 - INFO - allennlp.common.params - vocabulary.type = from_files
-2024-06-29 21:12:44,636 - INFO - allennlp.common.params - vocabulary.directory = xlm-roberta-base-en/common_vocab.tar.gz
-2024-06-29 21:12:44,636 - INFO - allennlp.common.params - vocabulary.padding_token = @@PADDING@@
-2024-06-29 21:12:44,636 - INFO - allennlp.common.params - vocabulary.oov_token = @@UNKNOWN@@
-2024-06-29 21:12:44,636 - INFO - allennlp.data.vocabulary - Loading token dictionary from xlm-roberta-base-en/common_vocab.tar.gz.
-2024-06-29 21:12:44,638 - INFO - allennlp.common.params - model.type = from_archive
-2024-06-29 21:12:44,638 - INFO - allennlp.common.params - model.archive_file = xlm-roberta-base-en/pretrained/model.tar.gz
-2024-06-29 21:12:44,638 - INFO - allennlp.models.archival - loading archive file xlm-roberta-base-en/pretrained/model.tar.gz
-2024-06-29 21:12:44,638 - INFO - allennlp.models.archival - extracting archive file xlm-roberta-base-en/pretrained/model.tar.gz to temp dir /tmp/tmph7ottyi_
-2024-06-29 21:12:50,409 - INFO - allennlp.common.params - dataset_reader.type = compreno_ud_dataset_reader
-2024-06-29 21:12:50,409 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
-2024-06-29 21:12:50,409 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
-2024-06-29 21:12:50,409 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = xlm-roberta-base
-2024-06-29 21:12:50,409 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
-2024-06-29 21:12:50,409 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = None
-2024-06-29 21:12:50,409 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
-2024-06-29 21:12:50,410 - INFO - allennlp.common.params - dataset_reader.type = compreno_ud_dataset_reader
-2024-06-29 21:12:50,410 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
-2024-06-29 21:12:50,410 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
-2024-06-29 21:12:50,410 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = xlm-roberta-base
-2024-06-29 21:12:50,410 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
-2024-06-29 21:12:50,410 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = None
-2024-06-29 21:12:50,410 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
-2024-06-29 21:12:50,410 - INFO - allennlp.common.params - vocabulary.type = from_files
-2024-06-29 21:12:50,411 - INFO - allennlp.data.vocabulary - Loading token dictionary from /tmp/tmph7ottyi_/vocabulary.
-2024-06-29 21:12:50,412 - INFO - allennlp.common.params - model.type = morpho_syntax_semantic_parser
-2024-06-29 21:12:50,412 - INFO - allennlp.common.params - model.indexer.type = pretrained_transformer_mismatched
-2024-06-29 21:12:50,412 - INFO - allennlp.common.params - model.indexer.token_min_padding_length = 0
-2024-06-29 21:12:50,412 - INFO - allennlp.common.params - model.indexer.model_name = xlm-roberta-base
-2024-06-29 21:12:50,412 - INFO - allennlp.common.params - model.indexer.namespace = tags
-2024-06-29 21:12:50,412 - INFO - allennlp.common.params - model.indexer.max_length = None
-2024-06-29 21:12:50,412 - INFO - allennlp.common.params - model.indexer.tokenizer_kwargs = None
-2024-06-29 21:12:50,412 - INFO - allennlp.common.params - model.embedder.type = pretrained_transformer_mismatched
-2024-06-29 21:12:50,412 - INFO - allennlp.common.params - model.embedder.model_name = xlm-roberta-base
-2024-06-29 21:12:50,413 - INFO - allennlp.common.params - model.embedder.max_length = None
-2024-06-29 21:12:50,413 - INFO - allennlp.common.params - model.embedder.sub_module = None
-2024-06-29 21:12:50,413 - INFO - allennlp.common.params - model.embedder.train_parameters = True
-2024-06-29 21:12:50,413 - INFO - allennlp.common.params - model.embedder.last_layer_only = True
-2024-06-29 21:12:50,413 - INFO - allennlp.common.params - model.embedder.override_weights_file = None
-2024-06-29 21:12:50,413 - INFO - allennlp.common.params - model.embedder.override_weights_strip_prefix = None
-2024-06-29 21:12:50,413 - INFO - allennlp.common.params - model.embedder.load_weights = True
-2024-06-29 21:12:50,413 - INFO - allennlp.common.params - model.embedder.gradient_checkpointing = None
-2024-06-29 21:12:50,413 - INFO - allennlp.common.params - model.embedder.tokenizer_kwargs = None
-2024-06-29 21:12:50,413 - INFO - allennlp.common.params - model.embedder.transformer_kwargs = None
-2024-06-29 21:12:50,413 - INFO - allennlp.common.params - model.embedder.sub_token_mode = avg
-2024-06-29 21:12:50,936 - INFO - allennlp.common.params - model.lemma_rule_classifier.hid_dim = 512
-2024-06-29 21:12:50,936 - INFO - allennlp.common.params - model.lemma_rule_classifier.activation = relu
-2024-06-29 21:12:50,936 - INFO - allennlp.common.params - model.lemma_rule_classifier.dropout = 0.1
-2024-06-29 21:12:50,936 - INFO - allennlp.common.params - model.lemma_rule_classifier.dictionaries = []
-2024-06-29 21:12:50,936 - INFO - allennlp.common.params - model.lemma_rule_classifier.topk = None
-2024-06-29 21:12:50,938 - INFO - allennlp.common.params - model.pos_feats_classifier.hid_dim = 256
-2024-06-29 21:12:50,938 - INFO - allennlp.common.params - model.pos_feats_classifier.activation = relu
-2024-06-29 21:12:50,938 - INFO - allennlp.common.params - model.pos_feats_classifier.dropout = 0.1
-2024-06-29 21:12:50,939 - INFO - allennlp.common.params - model.depencency_classifier.hid_dim = 128
-2024-06-29 21:12:50,939 - INFO - allennlp.common.params - model.depencency_classifier.activation = relu
-2024-06-29 21:12:50,939 - INFO - allennlp.common.params - model.depencency_classifier.dropout = 0.1
-2024-06-29 21:12:50,977 - INFO - allennlp.common.params - model.misc_classifier.hid_dim = 128
-2024-06-29 21:12:50,977 - INFO - allennlp.common.params - model.misc_classifier.activation = relu
-2024-06-29 21:12:50,977 - INFO - allennlp.common.params - model.misc_classifier.dropout = 0.1
-2024-06-29 21:12:50,978 - INFO - allennlp.common.params - model.semslot_classifier.hid_dim = 1024
-2024-06-29 21:12:50,978 - INFO - allennlp.common.params - model.semslot_classifier.activation = relu
-2024-06-29 21:12:50,978 - INFO - allennlp.common.params - model.semslot_classifier.dropout = 0.1
-2024-06-29 21:12:50,981 - INFO - allennlp.common.params - model.semclass_classifier.hid_dim = 1024
-2024-06-29 21:12:50,981 - INFO - allennlp.common.params - model.semclass_classifier.activation = relu
-2024-06-29 21:12:50,981 - INFO - allennlp.common.params - model.semclass_classifier.dropout = 0.1
-2024-06-29 21:12:50,986 - INFO - allennlp.common.params - model.null_classifier.hid_dim = 512
-2024-06-29 21:12:50,986 - INFO - allennlp.common.params - model.null_classifier.activation = relu
-2024-06-29 21:12:50,986 - INFO - allennlp.common.params - model.null_classifier.dropout = 0.1
-2024-06-29 21:12:50,986 - INFO - allennlp.common.params - model.null_classifier.positive_class_weight = 1.0
-2024-06-29 21:12:51,699 - INFO - allennlp.models.archival - removing temporary unarchived model dir at /tmp/tmph7ottyi_
-2024-06-29 21:12:56,850 - INFO - allennlp.common.params - trainer.type = gradient_descent
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.cuda_device = 0
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.distributed = False
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.world_size = 1
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.patience = None
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.validation_metric = +Avg
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.num_epochs = 10
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.grad_norm = False
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.grad_clipping = 5
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.num_gradient_accumulation_steps = 1
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.use_amp = False
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.no_grad = None
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.momentum_scheduler = None
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.moving_average = None
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.checkpointer = <allennlp.common.lazy.Lazy object at 0x71b4c70e4dc0>
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.enable_default_callbacks = True
-2024-06-29 21:12:56,851 - INFO - allennlp.common.params - trainer.run_confidence_checks = True
-2024-06-29 21:12:56,852 - INFO - allennlp.common.params - trainer.grad_scaling = True
-2024-06-29 21:12:57,072 - INFO - allennlp.common.params - trainer.optimizer.type = adam
-2024-06-29 21:12:57,073 - INFO - allennlp.common.params - trainer.optimizer.lr = 0.01
-2024-06-29 21:12:57,073 - INFO - allennlp.common.params - trainer.optimizer.betas = (0.9, 0.999)
-2024-06-29 21:12:57,073 - INFO - allennlp.common.params - trainer.optimizer.eps = 1e-08
-2024-06-29 21:12:57,073 - INFO - allennlp.common.params - trainer.optimizer.weight_decay = 0.0
-2024-06-29 21:12:57,073 - INFO - allennlp.common.params - trainer.optimizer.amsgrad = False
-2024-06-29 21:12:57,074 - INFO - allennlp.training.optimizers - Done constructing parameter groups.
-2024-06-29 21:12:57,074 - INFO - allennlp.training.optimizers - Group 0: ['embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.pooler.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.embeddings.position_embeddings.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.embeddings.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.embeddings.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.pooler.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.embeddings.word_embeddings.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.embeddings.token_type_embeddings.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.7.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.weight'], {}
-2024-06-29 21:12:57,074 - INFO - allennlp.training.optimizers - Group 1: ['pos_feats_classifier.classifier.4.weight', 'semslot_classifier.classifier.4.weight', 'lemma_rule_classifier.classifier.4.bias', 'null_classifier.classifier.1.bias', 'misc_classifier.classifier.4.weight', 'dependency_classifier.arc_head_mlp.1.bias', 'lemma_rule_classifier.classifier.1.bias', 'lemma_rule_classifier.classifier.1.weight', 'pos_feats_classifier.classifier.4.bias', 'dependency_classifier.rel_dep_mlp.1.weight', 'misc_classifier.classifier.1.weight', 'lemma_rule_classifier.classifier.4.weight', 'null_classifier.classifier.4.weight', 'semclass_classifier.classifier.4.weight', 'misc_classifier.classifier.4.bias', 'dependency_classifier.arc_attention_eud._bias', 'dependency_classifier.arc_attention_eud._weight_matrix', 'dependency_classifier.rel_attention_ud._bias', 'dependency_classifier.rel_attention_eud._bias', 'pos_feats_classifier.classifier.1.weight', 'null_classifier.classifier.4.bias', 'dependency_classifier.arc_dep_mlp.1.weight', 'dependency_classifier.rel_head_mlp.1.weight', 'dependency_classifier.arc_attention_ud._bias', 'semslot_classifier.classifier.1.bias', 'dependency_classifier.arc_head_mlp.1.weight', 'semslot_classifier.classifier.1.weight', 'dependency_classifier.arc_dep_mlp.1.bias', 'semslot_classifier.classifier.4.bias', 'semclass_classifier.classifier.1.weight', 'semclass_classifier.classifier.4.bias', 'dependency_classifier.rel_attention_eud._weight_matrix', 'misc_classifier.classifier.1.bias', 'dependency_classifier.rel_attention_ud._weight_matrix', 'semclass_classifier.classifier.1.bias', 'dependency_classifier.arc_attention_ud._weight_matrix', 'null_classifier.classifier.1.weight', 'pos_feats_classifier.classifier.1.bias', 'dependency_classifier.rel_head_mlp.1.bias', 'dependency_classifier.rel_dep_mlp.1.bias'], {}
-2024-06-29 21:12:57,074 - INFO - allennlp.training.optimizers - Group 2: [], {}
-2024-06-29 21:12:57,074 - INFO - allennlp.training.optimizers - Number of trainable parameters: 290431118
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - The following parameters are Frozen (without gradient):
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - The following parameters are Tunable (with gradient):
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.word_embeddings.weight
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.position_embeddings.weight
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.token_type_embeddings.weight
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.LayerNorm.weight
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.LayerNorm.bias
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.weight
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.bias
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.weight
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.bias
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.weight
-2024-06-29 21:12:57,075 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.output.dense.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.output.dense.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.output.dense.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.output.dense.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.weight
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.bias
-2024-06-29 21:12:57,076 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.output.dense.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.output.dense.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.output.dense.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.output.dense.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.output.dense.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.output.dense.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.weight
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.bias
-2024-06-29 21:12:57,077 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.output.dense.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.output.dense.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.output.dense.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.output.dense.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.bias
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.weight
-2024-06-29 21:12:57,078 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.output.dense.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.output.dense.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.output.dense.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.output.dense.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.weight
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.bias
-2024-06-29 21:12:57,079 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.output.dense.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.output.dense.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.output.dense.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.output.dense.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.output.dense.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.output.dense.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.pooler.dense.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.pooler.dense.bias
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.1.weight
-2024-06-29 21:12:57,080 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.1.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.4.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.4.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - pos_feats_classifier.classifier.1.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - pos_feats_classifier.classifier.1.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - pos_feats_classifier.classifier.4.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - pos_feats_classifier.classifier.4.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.arc_dep_mlp.1.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.arc_dep_mlp.1.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.arc_head_mlp.1.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.arc_head_mlp.1.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.rel_dep_mlp.1.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.rel_dep_mlp.1.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.rel_head_mlp.1.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.rel_head_mlp.1.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.arc_attention_ud._weight_matrix
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.arc_attention_ud._bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.rel_attention_ud._weight_matrix
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.rel_attention_ud._bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.arc_attention_eud._weight_matrix
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.arc_attention_eud._bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.rel_attention_eud._weight_matrix
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - dependency_classifier.rel_attention_eud._bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - misc_classifier.classifier.1.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - misc_classifier.classifier.1.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - misc_classifier.classifier.4.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - misc_classifier.classifier.4.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - semslot_classifier.classifier.1.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - semslot_classifier.classifier.1.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - semslot_classifier.classifier.4.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - semslot_classifier.classifier.4.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - semclass_classifier.classifier.1.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - semclass_classifier.classifier.1.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - semclass_classifier.classifier.4.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - semclass_classifier.classifier.4.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - null_classifier.classifier.1.weight
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - null_classifier.classifier.1.bias
-2024-06-29 21:12:57,081 - INFO - allennlp.common.util - null_classifier.classifier.4.weight
-2024-06-29 21:12:57,082 - INFO - allennlp.common.util - null_classifier.classifier.4.bias
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.type = slanted_triangular
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.cut_frac = 0
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.ratio = 32
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.last_epoch = -1
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.gradual_unfreezing = True
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.discriminative_fine_tuning = True
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.decay_factor = 0.001
-2024-06-29 21:12:57,082 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing. Training only the top 1 layers.
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - type = default
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - save_completed_epochs = True
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - save_every_num_seconds = None
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - save_every_num_batches = None
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - keep_most_recent_by_count = 2
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - keep_most_recent_by_age = None
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - trainer.callbacks.0.type = tensorboard
-2024-06-29 21:12:57,082 - INFO - allennlp.common.params - trainer.callbacks.0.summary_interval = 100
-2024-06-29 21:12:57,083 - INFO - allennlp.common.params - trainer.callbacks.0.distribution_interval = None
-2024-06-29 21:12:57,083 - INFO - allennlp.common.params - trainer.callbacks.0.batch_size_interval = None
-2024-06-29 21:12:57,083 - INFO - allennlp.common.params - trainer.callbacks.0.should_log_parameter_statistics = False
-2024-06-29 21:12:57,083 - INFO - allennlp.common.params - trainer.callbacks.0.should_log_learning_rate = True
-2024-06-29 21:12:57,084 - WARNING - allennlp.training.gradient_descent_trainer - You provided a validation dataset but patience was set to None, meaning that early stopping is disabled
-2024-06-29 21:12:57,085 - INFO - allennlp.training.gradient_descent_trainer - Beginning training.
-2024-06-29 21:12:57,085 - INFO - allennlp.training.gradient_descent_trainer - Epoch 0/9
-2024-06-29 21:12:57,086 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
-2024-06-29 21:12:57,086 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 1.1G
-2024-06-29 21:12:57,087 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 21:12:57,087 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
-2024-06-29 21:12:57,470 - INFO - allennlp.training.callbacks.console_logger - Batch inputs
-2024-06-29 21:12:57,470 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/token_ids (Shape: 24 x 65)
-tensor([[     0,   1401,    621,  ...,      1,      1,      1],
-        [     0,  29790,      7,  ...,      1,      1,      1],
-        [     0, 129551,     47,  ...,      1,      1,      1],
+2024-07-01 01:04:44,193 - INFO - allennlp.common.params - random_seed = 13370
+2024-07-01 01:04:44,193 - INFO - allennlp.common.params - numpy_seed = 1337
+2024-07-01 01:04:44,193 - INFO - allennlp.common.params - pytorch_seed = 133
+2024-07-01 01:04:44,195 - INFO - allennlp.common.checks - Pytorch version: 2.3.1+cu121
+2024-07-01 01:04:44,195 - INFO - allennlp.common.params - type = default
+2024-07-01 01:04:44,195 - INFO - allennlp.common.params - dataset_reader.type = compreno_ud_dataset_reader
+2024-07-01 01:04:44,195 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
+2024-07-01 01:04:44,195 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
+2024-07-01 01:04:44,195 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = xlm-roberta-base
+2024-07-01 01:04:44,195 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
+2024-07-01 01:04:44,195 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = None
+2024-07-01 01:04:44,195 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
+2024-07-01 01:04:45,797 - INFO - allennlp.common.params - train_data_path = data/train.conllu
+2024-07-01 01:04:45,798 - INFO - allennlp.common.params - datasets_for_vocab_creation = None
+2024-07-01 01:04:45,798 - INFO - allennlp.common.params - validation_dataset_reader = None
+2024-07-01 01:04:45,798 - INFO - allennlp.common.params - validation_data_path = data/validation.conllu
+2024-07-01 01:04:45,798 - INFO - allennlp.common.params - test_data_path = None
+2024-07-01 01:04:45,798 - INFO - allennlp.common.params - evaluate_on_test = False
+2024-07-01 01:04:45,798 - INFO - allennlp.common.params - batch_weight_key = 
+2024-07-01 01:04:45,798 - INFO - allennlp.common.params - data_loader.type = multiprocess
+2024-07-01 01:04:45,798 - INFO - allennlp.common.params - data_loader.batch_size = 24
+2024-07-01 01:04:45,798 - INFO - allennlp.common.params - data_loader.drop_last = False
+2024-07-01 01:04:45,798 - INFO - allennlp.common.params - data_loader.shuffle = True
+2024-07-01 01:04:45,799 - INFO - allennlp.common.params - data_loader.batch_sampler = None
+2024-07-01 01:04:45,799 - INFO - allennlp.common.params - data_loader.batches_per_epoch = None
+2024-07-01 01:04:45,799 - INFO - allennlp.common.params - data_loader.num_workers = 0
+2024-07-01 01:04:45,799 - INFO - allennlp.common.params - data_loader.max_instances_in_memory = None
+2024-07-01 01:04:45,799 - INFO - allennlp.common.params - data_loader.start_method = fork
+2024-07-01 01:04:45,799 - INFO - allennlp.common.params - data_loader.cuda_device = None
+2024-07-01 01:04:45,799 - INFO - allennlp.common.params - data_loader.quiet = False
+2024-07-01 01:04:45,799 - INFO - allennlp.common.params - data_loader.collate_fn = <allennlp.data.data_loaders.data_collator.DefaultDataCollator object at 0x700748731250>
+2024-07-01 01:04:45,799 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
+2024-07-01 01:04:49,381 - INFO - allennlp.common.params - validation_data_loader.type = multiprocess
+2024-07-01 01:04:49,381 - INFO - allennlp.common.params - validation_data_loader.batch_size = 24
+2024-07-01 01:04:49,382 - INFO - allennlp.common.params - validation_data_loader.drop_last = False
+2024-07-01 01:04:49,382 - INFO - allennlp.common.params - validation_data_loader.shuffle = False
+2024-07-01 01:04:49,382 - INFO - allennlp.common.params - validation_data_loader.batch_sampler = None
+2024-07-01 01:04:49,382 - INFO - allennlp.common.params - validation_data_loader.batches_per_epoch = None
+2024-07-01 01:04:49,382 - INFO - allennlp.common.params - validation_data_loader.num_workers = 0
+2024-07-01 01:04:49,382 - INFO - allennlp.common.params - validation_data_loader.max_instances_in_memory = None
+2024-07-01 01:04:49,382 - INFO - allennlp.common.params - validation_data_loader.start_method = fork
+2024-07-01 01:04:49,382 - INFO - allennlp.common.params - validation_data_loader.cuda_device = None
+2024-07-01 01:04:49,382 - INFO - allennlp.common.params - validation_data_loader.quiet = False
+2024-07-01 01:04:49,382 - INFO - allennlp.common.params - validation_data_loader.collate_fn = <allennlp.data.data_loaders.data_collator.DefaultDataCollator object at 0x700748731250>
+2024-07-01 01:04:49,382 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
+2024-07-01 01:04:50,043 - INFO - allennlp.common.params - vocabulary.type = from_files
+2024-07-01 01:04:50,043 - INFO - allennlp.common.params - vocabulary.directory = serialization/common_vocab.tar.gz
+2024-07-01 01:04:50,043 - INFO - allennlp.common.params - vocabulary.padding_token = @@PADDING@@
+2024-07-01 01:04:50,043 - INFO - allennlp.common.params - vocabulary.oov_token = @@UNKNOWN@@
+2024-07-01 01:04:50,043 - INFO - allennlp.data.vocabulary - Loading token dictionary from serialization/common_vocab.tar.gz.
+2024-07-01 01:04:50,045 - INFO - allennlp.common.params - model.type = from_archive
+2024-07-01 01:04:50,045 - INFO - allennlp.common.params - model.archive_file = serialization/pretrained/model.tar.gz
+2024-07-01 01:04:50,045 - INFO - allennlp.models.archival - loading archive file serialization/pretrained/model.tar.gz
+2024-07-01 01:04:50,045 - INFO - allennlp.models.archival - extracting archive file serialization/pretrained/model.tar.gz to temp dir /tmp/tmpt5gndf3e
+2024-07-01 01:04:55,715 - INFO - allennlp.common.params - dataset_reader.type = compreno_ud_dataset_reader
+2024-07-01 01:04:55,716 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
+2024-07-01 01:04:55,716 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
+2024-07-01 01:04:55,716 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = xlm-roberta-base
+2024-07-01 01:04:55,716 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
+2024-07-01 01:04:55,716 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = None
+2024-07-01 01:04:55,716 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
+2024-07-01 01:04:55,716 - INFO - allennlp.common.params - dataset_reader.type = compreno_ud_dataset_reader
+2024-07-01 01:04:55,717 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
+2024-07-01 01:04:55,717 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
+2024-07-01 01:04:55,717 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = xlm-roberta-base
+2024-07-01 01:04:55,717 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
+2024-07-01 01:04:55,717 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = None
+2024-07-01 01:04:55,717 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
+2024-07-01 01:04:55,717 - INFO - allennlp.common.params - vocabulary.type = from_files
+2024-07-01 01:04:55,717 - INFO - allennlp.data.vocabulary - Loading token dictionary from /tmp/tmpt5gndf3e/vocabulary.
+2024-07-01 01:04:55,718 - INFO - allennlp.common.params - model.type = morpho_syntax_semantic_parser
+2024-07-01 01:04:55,718 - INFO - allennlp.common.params - model.indexer.type = pretrained_transformer_mismatched
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.indexer.token_min_padding_length = 0
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.indexer.model_name = xlm-roberta-base
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.indexer.namespace = tags
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.indexer.max_length = None
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.indexer.tokenizer_kwargs = None
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.embedder.type = pretrained_transformer_mismatched
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.embedder.model_name = xlm-roberta-base
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.embedder.max_length = None
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.embedder.sub_module = None
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.embedder.train_parameters = True
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.embedder.last_layer_only = True
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.embedder.override_weights_file = None
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.embedder.override_weights_strip_prefix = None
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.embedder.load_weights = True
+2024-07-01 01:04:55,719 - INFO - allennlp.common.params - model.embedder.gradient_checkpointing = None
+2024-07-01 01:04:55,720 - INFO - allennlp.common.params - model.embedder.tokenizer_kwargs = None
+2024-07-01 01:04:55,720 - INFO - allennlp.common.params - model.embedder.transformer_kwargs = None
+2024-07-01 01:04:55,720 - INFO - allennlp.common.params - model.embedder.sub_token_mode = avg
+2024-07-01 01:04:56,244 - INFO - allennlp.common.params - model.lemma_rule_classifier.hid_dim = 512
+2024-07-01 01:04:56,244 - INFO - allennlp.common.params - model.lemma_rule_classifier.activation = relu
+2024-07-01 01:04:56,244 - INFO - allennlp.common.params - model.lemma_rule_classifier.dropout = 0.1
+2024-07-01 01:04:56,245 - INFO - allennlp.common.params - model.lemma_rule_classifier.dictionaries = []
+2024-07-01 01:04:56,245 - INFO - allennlp.common.params - model.lemma_rule_classifier.topk = None
+2024-07-01 01:04:56,246 - INFO - allennlp.common.params - model.pos_feats_classifier.hid_dim = 256
+2024-07-01 01:04:56,246 - INFO - allennlp.common.params - model.pos_feats_classifier.activation = relu
+2024-07-01 01:04:56,247 - INFO - allennlp.common.params - model.pos_feats_classifier.dropout = 0.1
+2024-07-01 01:04:56,248 - INFO - allennlp.common.params - model.depencency_classifier.hid_dim = 128
+2024-07-01 01:04:56,248 - INFO - allennlp.common.params - model.depencency_classifier.activation = relu
+2024-07-01 01:04:56,248 - INFO - allennlp.common.params - model.depencency_classifier.dropout = 0.1
+2024-07-01 01:04:56,285 - INFO - allennlp.common.params - model.misc_classifier.hid_dim = 128
+2024-07-01 01:04:56,285 - INFO - allennlp.common.params - model.misc_classifier.activation = relu
+2024-07-01 01:04:56,285 - INFO - allennlp.common.params - model.misc_classifier.dropout = 0.1
+2024-07-01 01:04:56,286 - INFO - allennlp.common.params - model.semslot_classifier.hid_dim = 1024
+2024-07-01 01:04:56,286 - INFO - allennlp.common.params - model.semslot_classifier.activation = relu
+2024-07-01 01:04:56,286 - INFO - allennlp.common.params - model.semslot_classifier.dropout = 0.1
+2024-07-01 01:04:56,289 - INFO - allennlp.common.params - model.semclass_classifier.hid_dim = 1024
+2024-07-01 01:04:56,289 - INFO - allennlp.common.params - model.semclass_classifier.activation = relu
+2024-07-01 01:04:56,289 - INFO - allennlp.common.params - model.semclass_classifier.dropout = 0.1
+2024-07-01 01:04:56,294 - INFO - allennlp.common.params - model.null_classifier.hid_dim = 512
+2024-07-01 01:04:56,294 - INFO - allennlp.common.params - model.null_classifier.activation = relu
+2024-07-01 01:04:56,294 - INFO - allennlp.common.params - model.null_classifier.dropout = 0.1
+2024-07-01 01:04:56,294 - INFO - allennlp.common.params - model.null_classifier.positive_class_weight = 1.0
+2024-07-01 01:04:57,027 - INFO - allennlp.models.archival - removing temporary unarchived model dir at /tmp/tmpt5gndf3e
+2024-07-01 01:05:02,102 - INFO - allennlp.common.params - trainer.type = gradient_descent
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.cuda_device = 0
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.distributed = False
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.world_size = 1
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.patience = None
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.validation_metric = +Avg
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.num_epochs = 10
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.grad_norm = False
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.grad_clipping = 5
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.num_gradient_accumulation_steps = 1
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.use_amp = False
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.no_grad = None
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.momentum_scheduler = None
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.moving_average = None
+2024-07-01 01:05:02,103 - INFO - allennlp.common.params - trainer.checkpointer = <allennlp.common.lazy.Lazy object at 0x7007427ec130>
+2024-07-01 01:05:02,104 - INFO - allennlp.common.params - trainer.enable_default_callbacks = True
+2024-07-01 01:05:02,104 - INFO - allennlp.common.params - trainer.run_confidence_checks = True
+2024-07-01 01:05:02,104 - INFO - allennlp.common.params - trainer.grad_scaling = True
+2024-07-01 01:05:02,318 - INFO - allennlp.common.params - trainer.optimizer.type = adam
+2024-07-01 01:05:02,319 - INFO - allennlp.common.params - trainer.optimizer.lr = 0.01
+2024-07-01 01:05:02,319 - INFO - allennlp.common.params - trainer.optimizer.betas = (0.9, 0.999)
+2024-07-01 01:05:02,319 - INFO - allennlp.common.params - trainer.optimizer.eps = 1e-08
+2024-07-01 01:05:02,319 - INFO - allennlp.common.params - trainer.optimizer.weight_decay = 0.0
+2024-07-01 01:05:02,319 - INFO - allennlp.common.params - trainer.optimizer.amsgrad = False
+2024-07-01 01:05:02,320 - INFO - allennlp.training.optimizers - Done constructing parameter groups.
+2024-07-01 01:05:02,320 - INFO - allennlp.training.optimizers - Group 0: ['embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.7.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.embeddings.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.7.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.1.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.embeddings.word_embeddings.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.embeddings.position_embeddings.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.pooler.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.embeddings.token_type_embeddings.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.11.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.9.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.pooler.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.embeddings.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.9.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.11.output.dense.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.0.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.bias', 'embedder._matched_embedder.transformer_model.encoder.layer.4.output.dense.weight', 'embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.weight'], {}
+2024-07-01 01:05:02,320 - INFO - allennlp.training.optimizers - Group 1: ['pos_feats_classifier.classifier.1.weight', 'semslot_classifier.classifier.4.bias', 'misc_classifier.classifier.4.weight', 'misc_classifier.classifier.4.bias', 'lemma_rule_classifier.classifier.4.bias', 'dependency_classifier.rel_head_mlp.1.weight', 'dependency_classifier.rel_head_mlp.1.bias', 'lemma_rule_classifier.classifier.1.weight', 'dependency_classifier.arc_dep_mlp.1.weight', 'semclass_classifier.classifier.4.bias', 'dependency_classifier.rel_dep_mlp.1.bias', 'pos_feats_classifier.classifier.4.bias', 'null_classifier.classifier.1.bias', 'semslot_classifier.classifier.4.weight', 'dependency_classifier.rel_attention_eud._weight_matrix', 'semclass_classifier.classifier.1.bias', 'null_classifier.classifier.1.weight', 'dependency_classifier.rel_dep_mlp.1.weight', 'pos_feats_classifier.classifier.1.bias', 'dependency_classifier.arc_attention_ud._weight_matrix', 'misc_classifier.classifier.1.weight', 'dependency_classifier.arc_attention_ud._bias', 'dependency_classifier.rel_attention_ud._bias', 'semclass_classifier.classifier.1.weight', 'dependency_classifier.arc_attention_eud._weight_matrix', 'semslot_classifier.classifier.1.weight', 'null_classifier.classifier.4.bias', 'lemma_rule_classifier.classifier.1.bias', 'dependency_classifier.rel_attention_ud._weight_matrix', 'dependency_classifier.rel_attention_eud._bias', 'dependency_classifier.arc_head_mlp.1.bias', 'lemma_rule_classifier.classifier.4.weight', 'semclass_classifier.classifier.4.weight', 'pos_feats_classifier.classifier.4.weight', 'misc_classifier.classifier.1.bias', 'dependency_classifier.arc_dep_mlp.1.bias', 'dependency_classifier.arc_head_mlp.1.weight', 'null_classifier.classifier.4.weight', 'dependency_classifier.arc_attention_eud._bias', 'semslot_classifier.classifier.1.bias'], {}
+2024-07-01 01:05:02,320 - INFO - allennlp.training.optimizers - Group 2: [], {}
+2024-07-01 01:05:02,320 - INFO - allennlp.training.optimizers - Number of trainable parameters: 290403443
+2024-07-01 01:05:02,321 - INFO - allennlp.common.util - The following parameters are Frozen (without gradient):
+2024-07-01 01:05:02,321 - INFO - allennlp.common.util - The following parameters are Tunable (with gradient):
+2024-07-01 01:05:02,321 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.word_embeddings.weight
+2024-07-01 01:05:02,321 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.position_embeddings.weight
+2024-07-01 01:05:02,321 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.token_type_embeddings.weight
+2024-07-01 01:05:02,321 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.LayerNorm.weight
+2024-07-01 01:05:02,321 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.LayerNorm.bias
+2024-07-01 01:05:02,321 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.weight
+2024-07-01 01:05:02,321 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.bias
+2024-07-01 01:05:02,321 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.weight
+2024-07-01 01:05:02,321 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.bias
+2024-07-01 01:05:02,321 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.output.dense.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.output.dense.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.output.dense.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.output.dense.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.bias
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.weight
+2024-07-01 01:05:02,322 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.output.dense.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.output.dense.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.output.dense.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.output.dense.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.output.dense.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.output.dense.bias
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.weight
+2024-07-01 01:05:02,323 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.output.dense.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.output.dense.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.output.dense.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.output.dense.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.weight
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.bias
+2024-07-01 01:05:02,324 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.output.dense.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.output.dense.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.output.dense.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.output.dense.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.bias
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.output.dense.weight
+2024-07-01 01:05:02,325 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.output.dense.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.output.dense.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.output.dense.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.output.dense.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.output.dense.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.pooler.dense.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.pooler.dense.bias
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.1.weight
+2024-07-01 01:05:02,326 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.1.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.4.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.4.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - pos_feats_classifier.classifier.1.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - pos_feats_classifier.classifier.1.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - pos_feats_classifier.classifier.4.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - pos_feats_classifier.classifier.4.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.arc_dep_mlp.1.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.arc_dep_mlp.1.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.arc_head_mlp.1.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.arc_head_mlp.1.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.rel_dep_mlp.1.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.rel_dep_mlp.1.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.rel_head_mlp.1.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.rel_head_mlp.1.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.arc_attention_ud._weight_matrix
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.arc_attention_ud._bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.rel_attention_ud._weight_matrix
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.rel_attention_ud._bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.arc_attention_eud._weight_matrix
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.arc_attention_eud._bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.rel_attention_eud._weight_matrix
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - dependency_classifier.rel_attention_eud._bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - misc_classifier.classifier.1.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - misc_classifier.classifier.1.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - misc_classifier.classifier.4.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - misc_classifier.classifier.4.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - semslot_classifier.classifier.1.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - semslot_classifier.classifier.1.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - semslot_classifier.classifier.4.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - semslot_classifier.classifier.4.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - semclass_classifier.classifier.1.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - semclass_classifier.classifier.1.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - semclass_classifier.classifier.4.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - semclass_classifier.classifier.4.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - null_classifier.classifier.1.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - null_classifier.classifier.1.bias
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - null_classifier.classifier.4.weight
+2024-07-01 01:05:02,327 - INFO - allennlp.common.util - null_classifier.classifier.4.bias
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.type = slanted_triangular
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.cut_frac = 0
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.ratio = 32
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.last_epoch = -1
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.gradual_unfreezing = True
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.discriminative_fine_tuning = True
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.decay_factor = 0.001
+2024-07-01 01:05:02,328 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing. Training only the top 1 layers.
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - type = default
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - save_completed_epochs = True
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - save_every_num_seconds = None
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - save_every_num_batches = None
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - keep_most_recent_by_count = 2
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - keep_most_recent_by_age = None
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - trainer.callbacks.0.type = tensorboard
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - trainer.callbacks.0.summary_interval = 100
+2024-07-01 01:05:02,328 - INFO - allennlp.common.params - trainer.callbacks.0.distribution_interval = None
+2024-07-01 01:05:02,329 - INFO - allennlp.common.params - trainer.callbacks.0.batch_size_interval = None
+2024-07-01 01:05:02,329 - INFO - allennlp.common.params - trainer.callbacks.0.should_log_parameter_statistics = False
+2024-07-01 01:05:02,329 - INFO - allennlp.common.params - trainer.callbacks.0.should_log_learning_rate = True
+2024-07-01 01:05:02,330 - WARNING - allennlp.training.gradient_descent_trainer - You provided a validation dataset but patience was set to None, meaning that early stopping is disabled
+2024-07-01 01:05:02,332 - INFO - allennlp.training.gradient_descent_trainer - Beginning training.
+2024-07-01 01:05:02,332 - INFO - allennlp.training.gradient_descent_trainer - Epoch 0/9
+2024-07-01 01:05:02,332 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
+2024-07-01 01:05:02,332 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 1.1G
+2024-07-01 01:05:02,333 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 01:05:02,333 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
+2024-07-01 01:05:02,720 - INFO - allennlp.training.callbacks.console_logger - Batch inputs
+2024-07-01 01:05:02,720 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/token_ids (Shape: 24 x 58)
+tensor([[     0,  59689, 191316,  ...,      1,      1,      1],
+        [     0,    360,  15226,  ...,      5,      2,      1],
+        [     0,  63519, 130891,  ...,      1,      1,      1],
         ...,
-        [     0,   1529,  49814,  ...,      1,      1,      1],
-        [     0,  50605,      6,  ...,      1,      1,      1],
-        [     0,  42902,  38931,  ...,      1,      1,      1]],
+        [     0,    581,  14380,  ...,      6,      5,      2],
+        [     0,    581, 215447,  ...,      1,      1,      1],
+        [     0,     44,   1401,  ...,      1,      1,      1]],
        device='cuda:0')
-2024-06-29 21:12:57,471 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/mask (Shape: 24 x 51)
+2024-07-01 01:05:02,721 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/mask (Shape: 24 x 43)
 tensor([[ True,  True,  True,  ..., False, False, False],
-        [ True,  True,  True,  ..., False, False, False],
+        [ True,  True,  True,  ...,  True,  True,  True],
         [ True,  True,  True,  ..., False, False, False],
         ...,
-        [ True,  True,  True,  ..., False, False, False],
+        [ True,  True,  True,  ...,  True,  True, False],
         [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False]], device='cuda:0')
-2024-06-29 21:12:57,472 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/type_ids (Shape: 24 x 65)
+2024-07-01 01:05:02,723 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/type_ids (Shape: 24 x 58)
 tensor([[0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
@@ -436,101 +436,101 @@ tensor([[0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
-2024-06-29 21:12:57,474 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/wordpiece_mask (Shape: 24 x 65)
+2024-07-01 01:05:02,724 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/wordpiece_mask (Shape: 24 x 58)
 tensor([[ True,  True,  True,  ..., False, False, False],
-        [ True,  True,  True,  ..., False, False, False],
+        [ True,  True,  True,  ...,  True,  True, False],
         [ True,  True,  True,  ..., False, False, False],
         ...,
-        [ True,  True,  True,  ..., False, False, False],
+        [ True,  True,  True,  ...,  True,  True,  True],
         [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False]], device='cuda:0')
-2024-06-29 21:12:57,475 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/offsets (Shape: 24 x 51 x 2)
-tensor([[[1, 1],
-         [2, 2],
-         [3, 3],
+2024-07-01 01:05:02,725 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/offsets (Shape: 24 x 43 x 2)
+tensor([[[ 1,  1],
+         [ 2,  2],
+         [ 3,  3],
          ...,
-         [0, 0],
-         [0, 0],
-         [0, 0]],
+         [ 0,  0],
+         [ 0,  0],
+         [ 0,  0]],
 
-        [[1, 2],
-         [3, 3],
-         [4, 5],
+        [[ 1,  1],
+         [ 2,  3],
+         [ 4,  5],
          ...,
-         [0, 0],
-         [0, 0],
-         [0, 0]],
+         [52, 52],
+         [53, 53],
+         [54, 55]],
 
-        [[1, 1],
-         [2, 2],
-         [3, 3],
+        [[ 1,  1],
+         [ 2,  2],
+         [ 3,  4],
          ...,
-         [0, 0],
-         [0, 0],
-         [0, 0]],
+         [ 0,  0],
+         [ 0,  0],
+         [ 0,  0]],
 
         ...,
 
-        [[1, 1],
-         [2, 2],
-         [3, 3],
+        [[ 1,  1],
+         [ 2,  2],
+         [ 3,  3],
          ...,
-         [0, 0],
-         [0, 0],
-         [0, 0]],
+         [53, 54],
+         [55, 56],
+         [ 0,  0]],
 
-        [[1, 1],
-         [2, 3],
-         [4, 4],
+        [[ 1,  1],
+         [ 2,  3],
+         [ 4,  4],
          ...,
-         [0, 0],
-         [0, 0],
-         [0, 0]],
+         [ 0,  0],
+         [ 0,  0],
+         [ 0,  0]],
 
-        [[1, 2],
-         [3, 4],
-         [5, 5],
+        [[ 1,  1],
+         [ 2,  2],
+         [ 3,  4],
          ...,
-         [0, 0],
-         [0, 0],
-         [0, 0]]], device='cuda:0')
-2024-06-29 21:12:57,478 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/sentences" : (Length 24 of type "<class 'list'>")
-2024-06-29 21:12:57,478 - INFO - allennlp.training.callbacks.console_logger - batch_input/lemma_rule_labels (Shape: 24 x 51)
-tensor([[0, 8, 0,  ..., 0, 0, 0],
-        [1, 0, 0,  ..., 0, 0, 0],
-        [3, 0, 1,  ..., 0, 0, 0],
+         [ 0,  0],
+         [ 0,  0],
+         [ 0,  0]]], device='cuda:0')
+2024-07-01 01:05:02,728 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/sentences" : (Length 24 of type "<class 'list'>")
+2024-07-01 01:05:02,728 - INFO - allennlp.training.callbacks.console_logger - batch_input/lemma_rule_labels (Shape: 24 x 43)
+tensor([[ 0,  0,  4,  ...,  0,  0,  0],
+        [ 0,  1,  1,  ...,  0,  0,  0],
+        [ 0,  0,  0,  ...,  0,  0,  0],
         ...,
-        [0, 2, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
-2024-06-29 21:12:57,479 - INFO - allennlp.training.callbacks.console_logger - batch_input/pos_feats_labels (Shape: 24 x 51)
-tensor([[37, 66,  8,  ...,  0,  0,  0],
-        [ 5,  1,  3,  ...,  0,  0,  0],
-        [16,  1,  5,  ...,  0,  0,  0],
+        [ 0,  0,  2,  ...,  1,  0,  0],
+        [ 0,  0,  0,  ...,  0,  0,  0],
+        [ 0,  0, 25,  ...,  0,  0,  0]], device='cuda:0')
+2024-07-01 01:05:02,729 - INFO - allennlp.training.callbacks.console_logger - batch_input/pos_feats_labels (Shape: 24 x 43)
+tensor([[ 3,  3, 14,  ...,  0,  0,  0],
+        [ 1, 13,  5,  ...,  0,  2,  2],
+        [ 8, 20, 21,  ...,  0,  0,  0],
         ...,
-        [26, 11,  6,  ...,  0,  0,  0],
-        [ 8,  2,  0,  ...,  0,  0,  0],
-        [ 3, 21,  0,  ...,  0,  0,  0]], device='cuda:0')
-2024-06-29 21:12:57,480 - INFO - allennlp.training.callbacks.console_logger - batch_input/deprel_labels (Shape: 24 x 51 x 51)
+        [ 6,  0, 11,  ...,  5,  2,  0],
+        [ 6,  0,  1,  ...,  0,  0,  0],
+        [ 2, 37, 66,  ...,  0,  0,  0]], device='cuda:0')
+2024-07-01 01:05:02,730 - INFO - allennlp.training.callbacks.console_logger - batch_input/deprel_labels (Shape: 24 x 43 x 43)
 tensor([[[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+         [28, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1,  1,  ..., -1, -1, -1],
-         [ 9, -1, -1,  ..., -1, -1, -1],
-         ...,
+        [[-1, -1,  1,  ..., -1, -1, -1],
+         [-1, -1, 21,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
+         ...,
          [-1, -1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ...,  0, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
         [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1,  1,  ..., -1, -1, -1],
-         [ 8, -1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
+         [-1,  1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
@@ -538,49 +538,49 @@ tensor([[[-1, -1, -1,  ..., -1, -1, -1],
 
         ...,
 
-        [[-1,  3, -1,  ..., -1, -1, -1],
-         [-1,  4, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+        [[-1,  2, -1,  ..., -1, -1, -1],
+         [-1, -1,  3,  ..., -1, -1, -1],
+         [-1, -1,  4,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+         [-1, -1,  0,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [ 0, -1, -1,  ..., -1, -1, -1],
+        [[-1,  2, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, 17,  ..., -1, -1, -1],
-         [ 1, -1, -1,  ..., -1, -1, -1],
+        [[-1, -1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]]], device='cuda:0')
-2024-06-29 21:12:57,487 - INFO - allennlp.training.callbacks.console_logger - batch_input/deps_labels (Shape: 24 x 51 x 51)
+2024-07-01 01:05:02,737 - INFO - allennlp.training.callbacks.console_logger - batch_input/deps_labels (Shape: 24 x 43 x 43)
 tensor([[[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+         [33, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1,  1,  ..., -1, -1, -1],
-         [30, -1, -1,  ..., -1, -1, -1],
-         ...,
+        [[-1, -1,  1,  ..., -1, -1, -1],
+         [-1, -1, 28,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
+         ...,
          [-1, -1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ...,  0, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
         [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1,  1,  ..., -1, -1, -1],
-         [27, -1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
+         [-1,  1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
@@ -588,78 +588,78 @@ tensor([[[-1, -1, -1,  ..., -1, -1, -1],
 
         ...,
 
-        [[-1,  2, -1,  ..., -1, -1, -1],
-         [-1,  4, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+        [[-1,  3, -1,  ..., -1, -1, -1],
+         [-1, -1,  2,  ..., -1, -1, -1],
+         [-1, -1,  4,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+         [-1, -1,  0,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [ 0, -1, -1,  ..., -1, -1, -1],
+        [[-1,  3, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, 15,  ..., -1, -1, -1],
-         [ 1, -1, -1,  ..., -1, -1, -1],
+        [[-1, -1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]]], device='cuda:0')
-2024-06-29 21:12:57,493 - INFO - allennlp.training.callbacks.console_logger - batch_input/misc_labels (Shape: 24 x 51)
+2024-07-01 01:05:02,743 - INFO - allennlp.training.callbacks.console_logger - batch_input/misc_labels (Shape: 24 x 43)
 tensor([[0, 0, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0],
+        [0, 0, 0,  ..., 1, 1, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         ...,
+        [0, 0, 0,  ..., 1, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
-        [1, 0, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
-2024-06-29 21:12:57,494 - INFO - allennlp.training.callbacks.console_logger - batch_input/semslot_labels (Shape: 24 x 51)
-tensor([[ 4,  0, 32,  ...,  0,  0,  0],
-        [ 3,  0,  8,  ...,  0,  0,  0],
-        [25,  0, 14,  ...,  0,  0,  0],
+        [1, 1, 0,  ..., 0, 0, 0]], device='cuda:0')
+2024-07-01 01:05:02,744 - INFO - allennlp.training.callbacks.console_logger - batch_input/semslot_labels (Shape: 24 x 43)
+tensor([[ 4,  7,  0,  ...,  0,  0,  0],
+        [ 0, 11, 47,  ..., 44,  0,  0],
+        [32,  4,  0,  ...,  0,  0,  0],
         ...,
-        [ 4,  2,  0,  ...,  0,  0,  0],
-        [32,  0,  4,  ...,  0,  0,  0],
-        [ 1,  0,  1,  ...,  0,  0,  0]], device='cuda:0')
-2024-06-29 21:12:57,495 - INFO - allennlp.training.callbacks.console_logger - batch_input/semclass_labels (Shape: 24 x 51)
-tensor([[ 1,  5, 20,  ...,  0,  0,  0],
-        [38,  2, 25,  ...,  0,  0,  0],
-        [16,  2, 33,  ...,  0,  0,  0],
+        [ 0,  4,  2,  ...,  3,  0,  0],
+        [ 0, 18,  0,  ...,  0,  0,  0],
+        [ 0, 12,  0,  ...,  0,  0,  0]], device='cuda:0')
+2024-07-01 01:05:02,745 - INFO - allennlp.training.callbacks.console_logger - batch_input/semclass_labels (Shape: 24 x 43)
+tensor([[ 1,  1,  5,  ...,  0,  0,  0],
+        [ 2, 60, 32,  ...,  8,  0,  0],
+        [19, 12,  0,  ...,  0,  0,  0],
         ...,
-        [ 1,  9,  3,  ...,  0,  0,  0],
-        [20,  0,  1,  ...,  0,  0,  0],
-        [21, 18, 48,  ...,  0,  0,  0]], device='cuda:0')
-2024-06-29 21:12:57,497 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/metadata" : (Length 24 of type "<class 'conllu.models.Metadata'>")
-2024-06-29 21:13:07,189 - INFO - tqdm - NullAccuracy: 0.9938, NullF1: 0.1497, Lemma: 0.8857, PosFeats: 0.7932, UD-UAS: 0.8508, UD-LAS: 0.8600, EUD-UAS: 0.7064, EUD-LAS: 0.7128, Misc: 0.9348, SS: 0.7200, SC: 0.6209, Avg: 0.7872, batch_loss: 4.1646, loss: 6.0915 ||:  55%|#####4    | 157/288 [00:10<00:08, 16.04it/s]
-2024-06-29 21:13:15,214 - INFO - tqdm - NullAccuracy: 0.9946, NullF1: 0.3871, Lemma: 0.9084, PosFeats: 0.8505, UD-UAS: 0.8584, UD-LAS: 0.8676, EUD-UAS: 0.7186, EUD-LAS: 0.7252, Misc: 0.9481, SS: 0.7543, SC: 0.6615, Avg: 0.8103, batch_loss: 3.7720, loss: 5.1074 ||: 100%|#########9| 287/288 [00:18<00:00, 16.21it/s]
-2024-06-29 21:13:15,262 - INFO - tqdm - NullAccuracy: 0.9946, NullF1: 0.3878, Lemma: 0.9084, PosFeats: 0.8507, UD-UAS: 0.8586, UD-LAS: 0.8678, EUD-UAS: 0.7187, EUD-LAS: 0.7254, Misc: 0.9482, SS: 0.7544, SC: 0.6617, Avg: 0.8104, batch_loss: 3.4774, loss: 5.1018 ||: 100%|##########| 288/288 [00:18<00:00, 15.85it/s]
-2024-06-29 21:13:15,262 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 21:13:15,263 - INFO - tqdm - 0%|          | 0/72 [00:00<?, ?it/s]
-2024-06-29 21:13:15,355 - INFO - allennlp.training.callbacks.console_logger - Batch inputs
-2024-06-29 21:13:15,355 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/token_ids (Shape: 24 x 55)
-tensor([[     0,  52455,   3395,  ...,      1,      1,      1],
-        [     0,   8352,   1529,  ...,      1,      1,      1],
-        [     0,   2022,   4021,  ...,      1,      1,      1],
+        [ 3, 15,  9,  ..., 17,  0,  0],
+        [ 3, 47,  2,  ...,  0,  0,  0],
+        [ 0,  1,  5,  ...,  0,  0,  0]], device='cuda:0')
+2024-07-01 01:05:02,747 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/metadata" : (Length 24 of type "<class 'conllu.models.Metadata'>")
+2024-07-01 01:05:12,365 - INFO - tqdm - NullAccuracy: 0.9937, NullF1: 0.1282, Lemma: 0.8771, PosFeats: 0.7854, UD-UAS: 0.8586, UD-LAS: 0.8672, EUD-UAS: 0.7254, EUD-LAS: 0.7315, Misc: 0.9358, SS: 0.7130, SC: 0.6199, Avg: 0.7904, batch_loss: 3.4599, loss: 6.2363 ||:  52%|#####2    | 151/288 [00:10<00:08, 15.93it/s]
+2024-07-01 01:05:21,059 - INFO - tqdm - NullAccuracy: 0.9948, NullF1: 0.4231, Lemma: 0.9036, PosFeats: 0.8481, UD-UAS: 0.8648, UD-LAS: 0.8736, EUD-UAS: 0.7359, EUD-LAS: 0.7430, Misc: 0.9505, SS: 0.7519, SC: 0.6606, Avg: 0.8147, batch_loss: 3.7780, loss: 5.1652 ||: 100%|#########9| 287/288 [00:18<00:00, 15.95it/s]
+2024-07-01 01:05:21,121 - INFO - tqdm - NullAccuracy: 0.9948, NullF1: 0.4236, Lemma: 0.9037, PosFeats: 0.8484, UD-UAS: 0.8648, UD-LAS: 0.8737, EUD-UAS: 0.7360, EUD-LAS: 0.7431, Misc: 0.9506, SS: 0.7521, SC: 0.6607, Avg: 0.8148, batch_loss: 3.5166, loss: 5.1595 ||: 100%|##########| 288/288 [00:18<00:00, 15.33it/s]
+2024-07-01 01:05:21,121 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 01:05:21,122 - INFO - tqdm - 0%|          | 0/73 [00:00<?, ?it/s]
+2024-07-01 01:05:21,235 - INFO - allennlp.training.callbacks.console_logger - Batch inputs
+2024-07-01 01:05:21,235 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/token_ids (Shape: 24 x 56)
+tensor([[     0,     62, 135051,  ...,      1,      1,      1],
+        [     0,   3311,   1532,  ...,      1,      1,      1],
+        [     0,     44,    581,  ...,      1,      1,      1],
         ...,
-        [     0,     44,   4687,  ...,      5,     44,      2],
-        [     0,     87,   7228,  ...,      1,      1,      1],
-        [     0,   8414, 191316,  ...,      1,      1,      1]],
+        [     0,    582,  45341,  ...,      1,      1,      1],
+        [     0,    581,  11675,  ...,      1,      1,      1],
+        [     0,   1529,   2804,  ...,      1,      1,      1]],
        device='cuda:0')
-2024-06-29 21:13:15,357 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/mask (Shape: 24 x 43)
+2024-07-01 01:05:21,237 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/mask (Shape: 24 x 43)
 tensor([[ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
         ...,
-        [ True,  True,  True,  ...,  True,  True,  True],
+        [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False]], device='cuda:0')
-2024-06-29 21:13:15,358 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/type_ids (Shape: 24 x 55)
+2024-07-01 01:05:21,238 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/type_ids (Shape: 24 x 56)
 tensor([[0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
@@ -667,99 +667,99 @@ tensor([[0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
-2024-06-29 21:13:15,359 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/wordpiece_mask (Shape: 24 x 55)
+2024-07-01 01:05:21,239 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/wordpiece_mask (Shape: 24 x 56)
 tensor([[ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
         ...,
-        [ True,  True,  True,  ...,  True,  True,  True],
+        [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False]], device='cuda:0')
-2024-06-29 21:13:15,361 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/offsets (Shape: 24 x 43 x 2)
-tensor([[[ 1,  1],
-         [ 2,  2],
-         [ 3,  3],
+2024-07-01 01:05:21,241 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/offsets (Shape: 24 x 43 x 2)
+tensor([[[1, 1],
+         [2, 2],
+         [3, 3],
          ...,
-         [ 0,  0],
-         [ 0,  0],
-         [ 0,  0]],
+         [0, 0],
+         [0, 0],
+         [0, 0]],
 
-        [[ 1,  1],
-         [ 2,  3],
-         [ 4,  5],
+        [[1, 1],
+         [2, 2],
+         [3, 4],
          ...,
-         [ 0,  0],
-         [ 0,  0],
-         [ 0,  0]],
+         [0, 0],
+         [0, 0],
+         [0, 0]],
 
-        [[ 1,  2],
-         [ 3,  3],
-         [ 4,  5],
+        [[1, 1],
+         [2, 2],
+         [3, 3],
          ...,
-         [ 0,  0],
-         [ 0,  0],
-         [ 0,  0]],
+         [0, 0],
+         [0, 0],
+         [0, 0]],
 
         ...,
 
-        [[ 1,  1],
-         [ 2,  2],
-         [ 3,  4],
+        [[1, 2],
+         [3, 3],
+         [4, 4],
          ...,
-         [50, 50],
-         [51, 52],
-         [53, 53]],
+         [0, 0],
+         [0, 0],
+         [0, 0]],
 
-        [[ 1,  1],
-         [ 2,  2],
-         [ 3,  3],
+        [[1, 1],
+         [2, 4],
+         [5, 5],
          ...,
-         [ 0,  0],
-         [ 0,  0],
-         [ 0,  0]],
+         [0, 0],
+         [0, 0],
+         [0, 0]],
 
-        [[ 1,  1],
-         [ 2,  2],
-         [ 3,  3],
+        [[1, 1],
+         [2, 2],
+         [3, 4],
          ...,
-         [ 0,  0],
-         [ 0,  0],
-         [ 0,  0]]], device='cuda:0')
-2024-06-29 21:13:15,363 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/sentences" : (Length 24 of type "<class 'list'>")
-2024-06-29 21:13:15,363 - INFO - allennlp.training.callbacks.console_logger - batch_input/lemma_rule_labels (Shape: 24 x 43)
+         [0, 0],
+         [0, 0],
+         [0, 0]]], device='cuda:0')
+2024-07-01 01:05:21,243 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/sentences" : (Length 24 of type "<class 'list'>")
+2024-07-01 01:05:21,243 - INFO - allennlp.training.callbacks.console_logger - batch_input/lemma_rule_labels (Shape: 24 x 43)
 tensor([[ 0,  0,  0,  ...,  0,  0,  0],
         [ 0,  0,  0,  ...,  0,  0,  0],
-        [ 0,  0,  0,  ...,  0,  0,  0],
+        [ 0,  0, 10,  ...,  0,  0,  0],
         ...,
-        [ 0,  0, 46,  ...,  0,  0,  0],
-        [ 0, 19,  0,  ...,  0,  0,  0],
-        [11,  0,  7,  ...,  0,  0,  0]], device='cuda:0')
-2024-06-29 21:13:15,364 - INFO - allennlp.training.callbacks.console_logger - batch_input/pos_feats_labels (Shape: 24 x 43)
-tensor([[ 4,  5, 28,  ...,  0,  0,  0],
-        [ 3,  3,  2,  ...,  0,  0,  0],
-        [ 1,  6,  5,  ...,  0,  0,  0],
+        [ 0,  6, 55,  ...,  0,  0,  0],
+        [ 0,  0,  0,  ...,  0,  0,  0],
+        [ 0,  7,  1,  ...,  0,  0,  0]], device='cuda:0')
+2024-07-01 01:05:21,245 - INFO - allennlp.training.callbacks.console_logger - batch_input/pos_feats_labels (Shape: 24 x 43)
+tensor([[10,  4,  0,  ...,  0,  0,  0],
+        [ 1,  0,  2,  ...,  0,  0,  0],
+        [ 2,  6,  5,  ...,  0,  0,  0],
         ...,
-        [ 2, 64, 14,  ..., 54,  2,  2],
-        [35, 78, 10,  ...,  0,  0,  0],
-        [ 3,  3, 11,  ...,  0,  0,  0]], device='cuda:0')
-2024-06-29 21:13:15,366 - INFO - allennlp.training.callbacks.console_logger - batch_input/deprel_labels (Shape: 24 x 43 x 43)
-tensor([[[-1,  5, -1,  ..., -1, -1, -1],
-         [-1, -1,  3,  ..., -1, -1, -1],
-         [-1, -1,  4,  ..., -1, -1, -1],
+        [ 3, 22, 17,  ...,  0,  0,  0],
+        [ 6,  4,  0,  ...,  0,  0,  0],
+        [26, 11,  5,  ...,  0,  0,  0]], device='cuda:0')
+2024-07-01 01:05:21,246 - INFO - allennlp.training.callbacks.console_logger - batch_input/deprel_labels (Shape: 24 x 43 x 43)
+tensor([[[-1, -1,  2,  ..., -1, -1, -1],
+         [-1, -1,  5,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [28, -1, -1,  ..., -1, -1, -1],
+        [[-1,  1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1,  1,  ..., -1, -1, -1],
+        [[-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1,  2,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
@@ -769,47 +769,47 @@ tensor([[[-1,  5, -1,  ..., -1, -1, -1],
 
         ...,
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+        [[-1, -1, 26,  ..., -1, -1, -1],
+         [-1, -1, 24,  ..., -1, -1, -1],
+         [-1, -1,  4,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1,  3, -1,  ..., -1, -1, -1],
-         [-1,  4, -1,  ..., -1, -1, -1],
+        [[-1, -1,  2,  ..., -1, -1, -1],
+         [-1, -1,  5,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1,  3,  ..., -1, -1, -1],
-         [28, -1, -1,  ..., -1, -1, -1],
-         [-1, -1,  4,  ..., -1, -1, -1],
+        [[-1,  3, -1,  ..., -1, -1, -1],
+         [-1,  4, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]]], device='cuda:0')
-2024-06-29 21:13:15,372 - INFO - allennlp.training.callbacks.console_logger - batch_input/deps_labels (Shape: 24 x 43 x 43)
-tensor([[[-1,  5, -1,  ..., -1, -1, -1],
-         [-1, -1,  2,  ..., -1, -1, -1],
-         [-1, -1,  4,  ..., -1, -1, -1],
+2024-07-01 01:05:21,252 - INFO - allennlp.training.callbacks.console_logger - batch_input/deps_labels (Shape: 24 x 43 x 43)
+tensor([[[-1, -1,  3,  ..., -1, -1, -1],
+         [-1, -1,  5,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [33, -1, -1,  ..., -1, -1, -1],
+        [[-1,  1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1,  1,  ..., -1, -1, -1],
+        [[-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1,  3,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
@@ -819,426 +819,421 @@ tensor([[[-1,  5, -1,  ..., -1, -1, -1],
 
         ...,
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+        [[-1, -1, 24,  ..., -1, -1, -1],
+         [-1, -1, 23,  ..., -1, -1, -1],
+         [-1, -1,  4,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1,  2, -1,  ..., -1, -1, -1],
-         [-1,  4, -1,  ..., -1, -1, -1],
+        [[-1, -1,  3,  ..., -1, -1, -1],
+         [-1, -1,  5,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1,  2,  ..., -1, -1, -1],
-         [33, -1, -1,  ..., -1, -1, -1],
-         [-1, -1,  4,  ..., -1, -1, -1],
+        [[-1,  2, -1,  ..., -1, -1, -1],
+         [-1,  4, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]]], device='cuda:0')
-2024-06-29 21:13:15,378 - INFO - allennlp.training.callbacks.console_logger - batch_input/misc_labels (Shape: 24 x 43)
+2024-07-01 01:05:21,259 - INFO - allennlp.training.callbacks.console_logger - batch_input/misc_labels (Shape: 24 x 43)
 tensor([[0, 0, 0,  ..., 0, 0, 0],
         [0, 1, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0],
+        [1, 0, 0,  ..., 0, 0, 0],
         ...,
-        [1, 1, 0,  ..., 1, 1, 0],
+        [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
-2024-06-29 21:13:15,379 - INFO - allennlp.training.callbacks.console_logger - batch_input/semslot_labels (Shape: 24 x 43)
-tensor([[10, 12,  2,  ...,  0,  0,  0],
-        [ 4,  7,  0,  ...,  0,  0,  0],
-        [ 0,  0, 60,  ...,  0,  0,  0],
+2024-07-01 01:05:21,260 - INFO - allennlp.training.callbacks.console_logger - batch_input/semslot_labels (Shape: 24 x 43)
+tensor([[ 0, 41, 18,  ...,  0,  0,  0],
+        [ 0,  5,  0,  ...,  0,  0,  0],
+        [ 0,  0,  4,  ...,  0,  0,  0],
         ...,
-        [ 0,  4,  0,  ...,  5,  0,  0],
-        [ 4,  2,  0,  ...,  0,  0,  0],
-        [ 4,  7,  2,  ...,  0,  0,  0]], device='cuda:0')
-2024-06-29 21:13:15,380 - INFO - allennlp.training.callbacks.console_logger - batch_input/semclass_labels (Shape: 24 x 43)
-tensor([[ 4, 39, 26,  ...,  0,  0,  0],
-        [ 1,  1,  0,  ...,  0,  0,  0],
-        [ 2,  3,  1,  ...,  0,  0,  0],
+        [ 3,  0,  2,  ...,  0,  0,  0],
+        [ 0,  6,  3,  ...,  0,  0,  0],
+        [ 4,  2,  4,  ...,  0,  0,  0]], device='cuda:0')
+2024-07-01 01:05:21,261 - INFO - allennlp.training.callbacks.console_logger - batch_input/semclass_labels (Shape: 24 x 43)
+tensor([[  3, 105, 120,  ...,   0,   0,   0],
+        [  2,   8,   0,  ...,   0,   0,   0],
+        [  0,   3,  15,  ...,   0,   0,   0],
         ...,
-        [ 0,  1,  5,  ...,  4,  0,  0],
-        [ 1, 34,  3,  ...,  0,  0,  0],
-        [ 1,  1,  9,  ...,  0,  0,  0]], device='cuda:0')
-2024-06-29 21:13:15,382 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/metadata" : (Length 24 of type "<class 'conllu.models.Metadata'>")
-2024-06-29 21:13:21,722 - INFO - tqdm - NullAccuracy: 0.9971, NullF1: 0.7619, Lemma: 0.9479, PosFeats: 0.9392, UD-UAS: 0.9049, UD-LAS: 0.9140, EUD-UAS: 0.8241, EUD-LAS: 0.8313, Misc: 0.9739, SS: 0.8134, SC: 0.7371, Avg: 0.8762, batch_loss: 3.1977, loss: 3.3303 ||: 100%|##########| 72/72 [00:06<00:00, 12.28it/s]
-2024-06-29 21:13:21,722 - INFO - tqdm - NullAccuracy: 0.9971, NullF1: 0.7619, Lemma: 0.9479, PosFeats: 0.9392, UD-UAS: 0.9049, UD-LAS: 0.9140, EUD-UAS: 0.8241, EUD-LAS: 0.8313, Misc: 0.9739, SS: 0.8134, SC: 0.7371, Avg: 0.8762, batch_loss: 3.1977, loss: 3.3303 ||: 100%|##########| 72/72 [00:06<00:00, 11.15it/s]
-2024-06-29 21:13:21,723 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 21:13:21,726 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 21:13:21,726 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.810  |     0.876
-2024-06-29 21:13:21,726 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.725  |     0.831
-2024-06-29 21:13:21,726 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.719  |     0.824
-2024-06-29 21:13:21,726 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.908  |     0.948
-2024-06-29 21:13:21,726 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.948  |     0.974
-2024-06-29 21:13:21,726 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.995  |     0.997
-2024-06-29 21:13:21,726 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.388  |     0.762
-2024-06-29 21:13:21,726 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.851  |     0.939
-2024-06-29 21:13:21,727 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.662  |     0.737
-2024-06-29 21:13:21,727 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.754  |     0.813
-2024-06-29 21:13:21,727 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.868  |     0.914
-2024-06-29 21:13:21,727 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.859  |     0.905
-2024-06-29 21:13:21,727 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  1108.987  |       N/A
-2024-06-29 21:13:21,727 - INFO - allennlp.training.callbacks.console_logger - loss               |     5.102  |     3.330
-2024-06-29 21:13:21,727 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.102  |       N/A
-2024-06-29 21:13:23,301 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.215542
-2024-06-29 21:13:23,301 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:03:41
-2024-06-29 21:13:23,301 - INFO - allennlp.training.gradient_descent_trainer - Epoch 1/9
-2024-06-29 21:13:23,301 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
-2024-06-29 21:13:23,302 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 5.2G
-2024-06-29 21:13:23,303 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 21:13:23,303 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
-2024-06-29 21:13:33,339 - INFO - tqdm - NullAccuracy: 0.9965, NullF1: 0.6809, Lemma: 0.9497, PosFeats: 0.9368, UD-UAS: 0.8528, UD-LAS: 0.8610, EUD-UAS: 0.6970, EUD-LAS: 0.7025, Misc: 0.9706, SS: 0.8045, SC: 0.7461, Avg: 0.8357, batch_loss: 3.2987, loss: 3.5910 ||:  27%|##7       | 78/288 [00:10<00:26,  7.88it/s]
-2024-06-29 21:13:43,444 - INFO - tqdm - NullAccuracy: 0.9965, NullF1: 0.7069, Lemma: 0.9555, PosFeats: 0.9413, UD-UAS: 0.8494, UD-LAS: 0.8575, EUD-UAS: 0.6925, EUD-LAS: 0.6976, Misc: 0.9773, SS: 0.8091, SC: 0.7701, Avg: 0.8389, batch_loss: 3.2029, loss: 3.4042 ||:  55%|#####4    | 157/288 [00:20<00:16,  7.71it/s]
-2024-06-29 21:13:53,516 - INFO - tqdm - NullAccuracy: 0.9967, NullF1: 0.7250, Lemma: 0.9582, PosFeats: 0.9455, UD-UAS: 0.8503, UD-LAS: 0.8585, EUD-UAS: 0.6910, EUD-LAS: 0.6977, Misc: 0.9816, SS: 0.8134, SC: 0.7856, Avg: 0.8424, batch_loss: 2.9574, loss: 3.2500 ||:  81%|########1 | 234/288 [00:30<00:06,  7.87it/s]
-2024-06-29 21:14:00,308 - INFO - tqdm - NullAccuracy: 0.9969, NullF1: 0.7391, Lemma: 0.9598, PosFeats: 0.9473, UD-UAS: 0.8515, UD-LAS: 0.8597, EUD-UAS: 0.6926, EUD-LAS: 0.6988, Misc: 0.9836, SS: 0.8161, SC: 0.7937, Avg: 0.8448, batch_loss: 3.2288, loss: 3.1576 ||: 100%|#########9| 287/288 [00:37<00:00,  7.85it/s]
-2024-06-29 21:14:00,417 - INFO - tqdm - NullAccuracy: 0.9968, NullF1: 0.7383, Lemma: 0.9598, PosFeats: 0.9474, UD-UAS: 0.8515, UD-LAS: 0.8597, EUD-UAS: 0.6926, EUD-LAS: 0.6989, Misc: 0.9836, SS: 0.8162, SC: 0.7938, Avg: 0.8448, batch_loss: 2.5326, loss: 3.1554 ||: 100%|##########| 288/288 [00:37<00:00,  8.20it/s]
-2024-06-29 21:14:00,417 - INFO - tqdm - NullAccuracy: 0.9968, NullF1: 0.7383, Lemma: 0.9598, PosFeats: 0.9474, UD-UAS: 0.8515, UD-LAS: 0.8597, EUD-UAS: 0.6926, EUD-LAS: 0.6989, Misc: 0.9836, SS: 0.8162, SC: 0.7938, Avg: 0.8448, batch_loss: 2.5326, loss: 3.1554 ||: 100%|##########| 288/288 [00:37<00:00,  7.76it/s]
-2024-06-29 21:14:00,418 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 21:14:00,419 - INFO - tqdm - 0%|          | 0/72 [00:00<?, ?it/s]
-2024-06-29 21:14:06,518 - INFO - tqdm - NullAccuracy: 0.9975, NullF1: 0.8077, Lemma: 0.9723, PosFeats: 0.9662, UD-UAS: 0.9087, UD-LAS: 0.9164, EUD-UAS: 0.7815, EUD-LAS: 0.7869, Misc: 0.9935, SS: 0.8448, SC: 0.8532, Avg: 0.8915, batch_loss: 2.0312, loss: 2.2594 ||: 100%|##########| 72/72 [00:06<00:00, 12.79it/s]
-2024-06-29 21:14:06,518 - INFO - tqdm - NullAccuracy: 0.9975, NullF1: 0.8077, Lemma: 0.9723, PosFeats: 0.9662, UD-UAS: 0.9087, UD-LAS: 0.9164, EUD-UAS: 0.7815, EUD-LAS: 0.7869, Misc: 0.9935, SS: 0.8448, SC: 0.8532, Avg: 0.8915, batch_loss: 2.0312, loss: 2.2594 ||: 100%|##########| 72/72 [00:06<00:00, 11.81it/s]
-2024-06-29 21:14:06,519 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 21:14:06,521 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 21:14:06,521 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.845  |     0.892
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.699  |     0.787
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.693  |     0.781
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.960  |     0.972
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.984  |     0.993
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.997  |     0.997
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.738  |     0.808
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.947  |     0.966
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.794  |     0.853
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.816  |     0.845
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.860  |     0.916
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.852  |     0.909
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  5327.152  |       N/A
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - loss               |     3.155  |     2.259
-2024-06-29 21:14:06,522 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.102  |       N/A
-2024-06-29 21:14:10,948 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:47.646645
-2024-06-29 21:14:10,948 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:04:37
-2024-06-29 21:14:10,948 - INFO - allennlp.training.gradient_descent_trainer - Epoch 2/9
-2024-06-29 21:14:10,948 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
-2024-06-29 21:14:10,948 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
-2024-06-29 21:14:10,949 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 21:14:10,950 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
-2024-06-29 21:14:21,070 - INFO - tqdm - NullAccuracy: 0.9977, NullF1: 0.7932, Lemma: 0.9710, PosFeats: 0.9618, UD-UAS: 0.8661, UD-LAS: 0.8732, EUD-UAS: 0.7090, EUD-LAS: 0.7132, Misc: 0.9927, SS: 0.8393, SC: 0.8465, Avg: 0.8636, batch_loss: 2.6173, loss: 2.4244 ||:  27%|##7       | 79/288 [00:10<00:27,  7.54it/s]
-2024-06-29 21:14:31,138 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8221, Lemma: 0.9725, PosFeats: 0.9632, UD-UAS: 0.8646, UD-LAS: 0.8716, EUD-UAS: 0.7069, EUD-LAS: 0.7113, Misc: 0.9930, SS: 0.8415, SC: 0.8505, Avg: 0.8639, batch_loss: 2.4031, loss: 2.4033 ||:  54%|#####4    | 156/288 [00:20<00:17,  7.43it/s]
-2024-06-29 21:14:41,143 - INFO - tqdm - NullAccuracy: 0.9976, NullF1: 0.8073, Lemma: 0.9734, PosFeats: 0.9642, UD-UAS: 0.8639, UD-LAS: 0.8712, EUD-UAS: 0.7082, EUD-LAS: 0.7129, Misc: 0.9934, SS: 0.8426, SC: 0.8520, Avg: 0.8646, batch_loss: 2.4512, loss: 2.3912 ||:  81%|########  | 233/288 [00:30<00:07,  7.82it/s]
-2024-06-29 21:14:48,057 - INFO - tqdm - NullAccuracy: 0.9976, NullF1: 0.8095, Lemma: 0.9737, PosFeats: 0.9653, UD-UAS: 0.8654, UD-LAS: 0.8729, EUD-UAS: 0.7116, EUD-LAS: 0.7164, Misc: 0.9937, SS: 0.8436, SC: 0.8537, Avg: 0.8663, batch_loss: 1.9384, loss: 2.3612 ||: 100%|#########9| 287/288 [00:37<00:00,  7.65it/s]
-2024-06-29 21:14:48,162 - INFO - tqdm - NullAccuracy: 0.9976, NullF1: 0.8087, Lemma: 0.9738, PosFeats: 0.9653, UD-UAS: 0.8653, UD-LAS: 0.8729, EUD-UAS: 0.7115, EUD-LAS: 0.7162, Misc: 0.9937, SS: 0.8434, SC: 0.8536, Avg: 0.8662, batch_loss: 2.7069, loss: 2.3624 ||: 100%|##########| 288/288 [00:37<00:00,  8.13it/s]
-2024-06-29 21:14:48,163 - INFO - tqdm - NullAccuracy: 0.9976, NullF1: 0.8087, Lemma: 0.9738, PosFeats: 0.9653, UD-UAS: 0.8653, UD-LAS: 0.8729, EUD-UAS: 0.7115, EUD-LAS: 0.7162, Misc: 0.9937, SS: 0.8434, SC: 0.8536, Avg: 0.8662, batch_loss: 2.7069, loss: 2.3624 ||: 100%|##########| 288/288 [00:37<00:00,  7.74it/s]
-2024-06-29 21:14:48,164 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 21:14:48,165 - INFO - tqdm - 0%|          | 0/72 [00:00<?, ?it/s]
-2024-06-29 21:14:54,187 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8323, Lemma: 0.9809, PosFeats: 0.9715, UD-UAS: 0.9149, UD-LAS: 0.9221, EUD-UAS: 0.8123, EUD-LAS: 0.8197, Misc: 0.9964, SS: 0.8603, SC: 0.8768, Avg: 0.9061, batch_loss: 1.7304, loss: 1.9961 ||: 100%|##########| 72/72 [00:06<00:00, 12.94it/s]
-2024-06-29 21:14:54,187 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8323, Lemma: 0.9809, PosFeats: 0.9715, UD-UAS: 0.9149, UD-LAS: 0.9221, EUD-UAS: 0.8123, EUD-LAS: 0.8197, Misc: 0.9964, SS: 0.8603, SC: 0.8768, Avg: 0.9061, batch_loss: 1.7304, loss: 1.9961 ||: 100%|##########| 72/72 [00:06<00:00, 11.95it/s]
-2024-06-29 21:14:54,188 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 21:14:54,190 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 21:14:54,190 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.866  |     0.906
-2024-06-29 21:14:54,190 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.716  |     0.820
-2024-06-29 21:14:54,190 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.711  |     0.812
-2024-06-29 21:14:54,190 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.974  |     0.981
-2024-06-29 21:14:54,191 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.994  |     0.996
-2024-06-29 21:14:54,191 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
-2024-06-29 21:14:54,191 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.809  |     0.832
-2024-06-29 21:14:54,191 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.965  |     0.971
-2024-06-29 21:14:54,191 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.854  |     0.877
-2024-06-29 21:14:54,191 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.843  |     0.860
-2024-06-29 21:14:54,191 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.873  |     0.922
-2024-06-29 21:14:54,191 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.865  |     0.915
-2024-06-29 21:14:54,191 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13763.853  |       N/A
-2024-06-29 21:14:54,191 - INFO - allennlp.training.callbacks.console_logger - loss               |     2.362  |     1.996
-2024-06-29 21:14:54,191 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.102  |       N/A
-2024-06-29 21:14:58,751 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:47.803190
-2024-06-29 21:14:58,751 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:04:33
-2024-06-29 21:14:58,751 - INFO - allennlp.training.gradient_descent_trainer - Epoch 3/9
-2024-06-29 21:14:58,752 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
-2024-06-29 21:14:58,752 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
-2024-06-29 21:14:58,753 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 21:14:58,753 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
-2024-06-29 21:15:08,805 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8141, Lemma: 0.9791, PosFeats: 0.9705, UD-UAS: 0.8740, UD-LAS: 0.8814, EUD-UAS: 0.7253, EUD-LAS: 0.7302, Misc: 0.9957, SS: 0.8573, SC: 0.8742, Avg: 0.8764, batch_loss: 2.0366, loss: 2.0520 ||:  27%|##7       | 78/288 [00:10<00:26,  7.91it/s]
-2024-06-29 21:15:18,910 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8244, Lemma: 0.9794, PosFeats: 0.9704, UD-UAS: 0.8756, UD-LAS: 0.8824, EUD-UAS: 0.7291, EUD-LAS: 0.7333, Misc: 0.9958, SS: 0.8587, SC: 0.8732, Avg: 0.8776, batch_loss: 2.1098, loss: 2.0365 ||:  54%|#####4    | 156/288 [00:20<00:17,  7.49it/s]
-2024-06-29 21:15:29,001 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8236, Lemma: 0.9799, PosFeats: 0.9709, UD-UAS: 0.8780, UD-LAS: 0.8847, EUD-UAS: 0.7338, EUD-LAS: 0.7377, Misc: 0.9958, SS: 0.8606, SC: 0.8748, Avg: 0.8796, batch_loss: 1.8021, loss: 1.9988 ||:  82%|########1 | 235/288 [00:30<00:06,  7.95it/s]
-2024-06-29 21:15:35,747 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8291, Lemma: 0.9797, PosFeats: 0.9710, UD-UAS: 0.8783, UD-LAS: 0.8852, EUD-UAS: 0.7339, EUD-LAS: 0.7380, Misc: 0.9958, SS: 0.8605, SC: 0.8749, Avg: 0.8797, batch_loss: 1.9839, loss: 1.9926 ||: 100%|#########9| 287/288 [00:36<00:00,  7.91it/s]
-2024-06-29 21:15:35,855 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8293, Lemma: 0.9797, PosFeats: 0.9711, UD-UAS: 0.8783, UD-LAS: 0.8852, EUD-UAS: 0.7341, EUD-LAS: 0.7381, Misc: 0.9958, SS: 0.8605, SC: 0.8750, Avg: 0.8797, batch_loss: 1.6128, loss: 1.9913 ||: 100%|##########| 288/288 [00:37<00:00,  8.26it/s]
-2024-06-29 21:15:35,856 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8293, Lemma: 0.9797, PosFeats: 0.9711, UD-UAS: 0.8783, UD-LAS: 0.8852, EUD-UAS: 0.7341, EUD-LAS: 0.7381, Misc: 0.9958, SS: 0.8605, SC: 0.8750, Avg: 0.8797, batch_loss: 1.6128, loss: 1.9913 ||: 100%|##########| 288/288 [00:37<00:00,  7.76it/s]
-2024-06-29 21:15:35,857 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 21:15:35,858 - INFO - tqdm - 0%|          | 0/72 [00:00<?, ?it/s]
-2024-06-29 21:15:41,644 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8496, Lemma: 0.9826, PosFeats: 0.9737, UD-UAS: 0.9191, UD-LAS: 0.9252, EUD-UAS: 0.8557, EUD-LAS: 0.8608, Misc: 0.9964, SS: 0.8699, SC: 0.8866, Avg: 0.9189, batch_loss: 1.6744, loss: 1.8646 ||: 100%|##########| 72/72 [00:05<00:00, 13.41it/s]
-2024-06-29 21:15:41,644 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8496, Lemma: 0.9826, PosFeats: 0.9737, UD-UAS: 0.9191, UD-LAS: 0.9252, EUD-UAS: 0.8557, EUD-LAS: 0.8608, Misc: 0.9964, SS: 0.8699, SC: 0.8866, Avg: 0.9189, batch_loss: 1.6744, loss: 1.8646 ||: 100%|##########| 72/72 [00:05<00:00, 12.44it/s]
-2024-06-29 21:15:41,644 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 21:15:41,647 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 21:15:41,647 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.880  |     0.919
-2024-06-29 21:15:41,647 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.738  |     0.861
-2024-06-29 21:15:41,647 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.734  |     0.856
-2024-06-29 21:15:41,647 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.980  |     0.983
-2024-06-29 21:15:41,647 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.996  |     0.996
-2024-06-29 21:15:41,647 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
-2024-06-29 21:15:41,648 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.829  |     0.850
-2024-06-29 21:15:41,648 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.971  |     0.974
-2024-06-29 21:15:41,648 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.875  |     0.887
-2024-06-29 21:15:41,648 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.861  |     0.870
-2024-06-29 21:15:41,648 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.885  |     0.925
-2024-06-29 21:15:41,648 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.878  |     0.919
-2024-06-29 21:15:41,648 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13763.250  |       N/A
-2024-06-29 21:15:41,648 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.991  |     1.865
-2024-06-29 21:15:41,648 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.102  |       N/A
-2024-06-29 21:15:46,477 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:47.725817
-2024-06-29 21:15:46,477 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:04:06
-2024-06-29 21:15:46,477 - INFO - allennlp.training.gradient_descent_trainer - Epoch 4/9
-2024-06-29 21:15:46,478 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
-2024-06-29 21:15:46,478 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
-2024-06-29 21:15:46,479 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 21:15:46,479 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
-2024-06-29 21:15:56,572 - INFO - tqdm - NullAccuracy: 0.9979, NullF1: 0.8211, Lemma: 0.9835, PosFeats: 0.9749, UD-UAS: 0.8873, UD-LAS: 0.8937, EUD-UAS: 0.7486, EUD-LAS: 0.7533, Misc: 0.9970, SS: 0.8725, SC: 0.8894, Avg: 0.8889, batch_loss: 1.9949, loss: 1.7507 ||:  27%|##7       | 78/288 [00:10<00:26,  7.85it/s]
-2024-06-29 21:16:06,686 - INFO - tqdm - NullAccuracy: 0.9979, NullF1: 0.8268, Lemma: 0.9833, PosFeats: 0.9745, UD-UAS: 0.8871, UD-LAS: 0.8938, EUD-UAS: 0.7503, EUD-LAS: 0.7549, Misc: 0.9969, SS: 0.8727, SC: 0.8895, Avg: 0.8892, batch_loss: 1.8607, loss: 1.7662 ||:  55%|#####4    | 157/288 [00:20<00:16,  7.90it/s]
-2024-06-29 21:16:16,728 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8375, Lemma: 0.9832, PosFeats: 0.9750, UD-UAS: 0.8864, UD-LAS: 0.8932, EUD-UAS: 0.7480, EUD-LAS: 0.7529, Misc: 0.9967, SS: 0.8727, SC: 0.8891, Avg: 0.8886, batch_loss: 1.9196, loss: 1.7666 ||:  82%|########1 | 235/288 [00:30<00:06,  7.64it/s]
-2024-06-29 21:16:23,488 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8422, Lemma: 0.9832, PosFeats: 0.9751, UD-UAS: 0.8863, UD-LAS: 0.8933, EUD-UAS: 0.7480, EUD-LAS: 0.7530, Misc: 0.9967, SS: 0.8736, SC: 0.8888, Avg: 0.8886, batch_loss: 1.8012, loss: 1.7659 ||: 100%|#########9| 287/288 [00:37<00:00,  7.78it/s]
-2024-06-29 21:16:23,593 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8425, Lemma: 0.9832, PosFeats: 0.9751, UD-UAS: 0.8862, UD-LAS: 0.8933, EUD-UAS: 0.7479, EUD-LAS: 0.7529, Misc: 0.9967, SS: 0.8737, SC: 0.8888, Avg: 0.8886, batch_loss: 1.7048, loss: 1.7657 ||: 100%|##########| 288/288 [00:37<00:00,  8.24it/s]
-2024-06-29 21:16:23,593 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8425, Lemma: 0.9832, PosFeats: 0.9751, UD-UAS: 0.8862, UD-LAS: 0.8933, EUD-UAS: 0.7479, EUD-LAS: 0.7529, Misc: 0.9967, SS: 0.8737, SC: 0.8888, Avg: 0.8886, batch_loss: 1.7048, loss: 1.7657 ||: 100%|##########| 288/288 [00:37<00:00,  7.76it/s]
-2024-06-29 21:16:23,594 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 21:16:23,595 - INFO - tqdm - 0%|          | 0/72 [00:00<?, ?it/s]
-2024-06-29 21:16:29,635 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8466, Lemma: 0.9855, PosFeats: 0.9748, UD-UAS: 0.9211, UD-LAS: 0.9271, EUD-UAS: 0.8049, EUD-LAS: 0.8105, Misc: 0.9976, SS: 0.8761, SC: 0.8963, Avg: 0.9104, batch_loss: 1.5200, loss: 1.7645 ||: 100%|##########| 72/72 [00:06<00:00, 12.85it/s]
-2024-06-29 21:16:29,635 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8466, Lemma: 0.9855, PosFeats: 0.9748, UD-UAS: 0.9211, UD-LAS: 0.9271, EUD-UAS: 0.8049, EUD-LAS: 0.8105, Misc: 0.9976, SS: 0.8761, SC: 0.8963, Avg: 0.9104, batch_loss: 1.5200, loss: 1.7645 ||: 100%|##########| 72/72 [00:06<00:00, 11.92it/s]
-2024-06-29 21:16:29,636 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.889  |     0.910
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.753  |     0.810
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.748  |     0.805
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.983  |     0.986
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.997  |     0.998
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.843  |     0.847
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.975  |     0.975
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.889  |     0.896
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.874  |     0.876
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.893  |     0.927
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.886  |     0.921
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13763.828  |       N/A
-2024-06-29 21:16:29,639 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.766  |     1.765
-2024-06-29 21:16:29,640 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.102  |       N/A
-2024-06-29 21:16:34,484 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:48.006757
-2024-06-29 21:16:34,484 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:03:32
-2024-06-29 21:16:34,484 - INFO - allennlp.training.gradient_descent_trainer - Epoch 5/9
-2024-06-29 21:16:34,484 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
-2024-06-29 21:16:34,485 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
-2024-06-29 21:16:34,486 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 21:16:34,486 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
-2024-06-29 21:16:44,498 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8401, Lemma: 0.9856, PosFeats: 0.9772, UD-UAS: 0.8886, UD-LAS: 0.8959, EUD-UAS: 0.7536, EUD-LAS: 0.7586, Misc: 0.9966, SS: 0.8818, SC: 0.8984, Avg: 0.8929, batch_loss: 1.4594, loss: 1.6137 ||:  27%|##6       | 77/288 [00:10<00:30,  6.96it/s]
-2024-06-29 21:16:54,564 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8455, Lemma: 0.9858, PosFeats: 0.9782, UD-UAS: 0.8904, UD-LAS: 0.8973, EUD-UAS: 0.7566, EUD-LAS: 0.7603, Misc: 0.9969, SS: 0.8828, SC: 0.8981, Avg: 0.8940, batch_loss: 1.5647, loss: 1.5944 ||:  54%|#####4    | 156/288 [00:20<00:17,  7.69it/s]
-2024-06-29 21:17:04,580 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8474, Lemma: 0.9863, PosFeats: 0.9780, UD-UAS: 0.8907, UD-LAS: 0.8976, EUD-UAS: 0.7563, EUD-LAS: 0.7601, Misc: 0.9971, SS: 0.8833, SC: 0.8995, Avg: 0.8943, batch_loss: 1.5219, loss: 1.5895 ||:  81%|########1 | 234/288 [00:30<00:06,  8.01it/s]
-2024-06-29 21:17:11,392 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8518, Lemma: 0.9864, PosFeats: 0.9781, UD-UAS: 0.8913, UD-LAS: 0.8982, EUD-UAS: 0.7581, EUD-LAS: 0.7621, Misc: 0.9971, SS: 0.8839, SC: 0.9000, Avg: 0.8950, batch_loss: 1.3723, loss: 1.5785 ||: 100%|#########9| 287/288 [00:36<00:00,  7.80it/s]
-2024-06-29 21:17:11,495 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8519, Lemma: 0.9864, PosFeats: 0.9781, UD-UAS: 0.8913, UD-LAS: 0.8982, EUD-UAS: 0.7580, EUD-LAS: 0.7619, Misc: 0.9971, SS: 0.8839, SC: 0.9001, Avg: 0.8950, batch_loss: 1.6527, loss: 1.5788 ||: 100%|##########| 288/288 [00:37<00:00,  8.28it/s]
-2024-06-29 21:17:11,496 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8519, Lemma: 0.9864, PosFeats: 0.9781, UD-UAS: 0.8913, UD-LAS: 0.8982, EUD-UAS: 0.7580, EUD-LAS: 0.7619, Misc: 0.9971, SS: 0.8839, SC: 0.9001, Avg: 0.8950, batch_loss: 1.6527, loss: 1.5788 ||: 100%|##########| 288/288 [00:37<00:00,  7.78it/s]
-2024-06-29 21:17:11,496 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 21:17:11,497 - INFO - tqdm - 0%|          | 0/72 [00:00<?, ?it/s]
-2024-06-29 21:17:17,261 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8566, Lemma: 0.9872, PosFeats: 0.9764, UD-UAS: 0.9232, UD-LAS: 0.9287, EUD-UAS: 0.8199, EUD-LAS: 0.8272, Misc: 0.9978, SS: 0.8810, SC: 0.8988, Avg: 0.9156, batch_loss: 1.4501, loss: 1.7571 ||: 100%|##########| 72/72 [00:05<00:00, 13.51it/s]
-2024-06-29 21:17:17,261 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8566, Lemma: 0.9872, PosFeats: 0.9764, UD-UAS: 0.9232, UD-LAS: 0.9287, EUD-UAS: 0.8199, EUD-LAS: 0.8272, Misc: 0.9978, SS: 0.8810, SC: 0.8988, Avg: 0.9156, batch_loss: 1.4501, loss: 1.7571 ||: 100%|##########| 72/72 [00:05<00:00, 12.49it/s]
-2024-06-29 21:17:17,261 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.895  |     0.916
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.762  |     0.827
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.758  |     0.820
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.986  |     0.987
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.997  |     0.998
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.852  |     0.857
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.978  |     0.976
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.900  |     0.899
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.884  |     0.881
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.898  |     0.929
-2024-06-29 21:17:17,264 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.891  |     0.923
-2024-06-29 21:17:17,265 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13763.975  |       N/A
-2024-06-29 21:17:17,265 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.579  |     1.757
-2024-06-29 21:17:17,265 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.102  |       N/A
-2024-06-29 21:17:21,976 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:47.491863
-2024-06-29 21:17:21,976 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:02:53
-2024-06-29 21:17:21,976 - INFO - allennlp.training.gradient_descent_trainer - Epoch 6/9
-2024-06-29 21:17:21,977 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
-2024-06-29 21:17:21,977 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
-2024-06-29 21:17:21,978 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 21:17:21,978 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
-2024-06-29 21:17:32,115 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8680, Lemma: 0.9879, PosFeats: 0.9805, UD-UAS: 0.8984, UD-LAS: 0.9053, EUD-UAS: 0.7737, EUD-LAS: 0.7788, Misc: 0.9977, SS: 0.8909, SC: 0.9101, Avg: 0.9026, batch_loss: 1.2265, loss: 1.4206 ||:  28%|##7       | 80/288 [00:10<00:27,  7.64it/s]
-2024-06-29 21:17:42,181 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8628, Lemma: 0.9882, PosFeats: 0.9810, UD-UAS: 0.8984, UD-LAS: 0.9054, EUD-UAS: 0.7736, EUD-LAS: 0.7782, Misc: 0.9975, SS: 0.8904, SC: 0.9104, Avg: 0.9026, batch_loss: 1.2879, loss: 1.4210 ||:  55%|#####5    | 159/288 [00:20<00:16,  7.73it/s]
-2024-06-29 21:17:52,196 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8695, Lemma: 0.9884, PosFeats: 0.9807, UD-UAS: 0.8998, UD-LAS: 0.9065, EUD-UAS: 0.7740, EUD-LAS: 0.7785, Misc: 0.9975, SS: 0.8908, SC: 0.9108, Avg: 0.9030, batch_loss: 1.0911, loss: 1.4151 ||:  83%|########2 | 238/288 [00:30<00:06,  8.01it/s]
-2024-06-29 21:17:59,124 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8703, Lemma: 0.9885, PosFeats: 0.9808, UD-UAS: 0.8988, UD-LAS: 0.9055, EUD-UAS: 0.7724, EUD-LAS: 0.7768, Misc: 0.9975, SS: 0.8914, SC: 0.9101, Avg: 0.9024, batch_loss: 1.7277, loss: 1.4194 ||: 100%|#########9| 287/288 [00:37<00:00,  7.37it/s]
-2024-06-29 21:17:59,232 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8704, Lemma: 0.9885, PosFeats: 0.9808, UD-UAS: 0.8988, UD-LAS: 0.9055, EUD-UAS: 0.7722, EUD-LAS: 0.7767, Misc: 0.9975, SS: 0.8914, SC: 0.9101, Avg: 0.9024, batch_loss: 1.1557, loss: 1.4185 ||: 100%|##########| 288/288 [00:37<00:00,  7.85it/s]
-2024-06-29 21:17:59,232 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8704, Lemma: 0.9885, PosFeats: 0.9808, UD-UAS: 0.8988, UD-LAS: 0.9055, EUD-UAS: 0.7722, EUD-LAS: 0.7767, Misc: 0.9975, SS: 0.8914, SC: 0.9101, Avg: 0.9024, batch_loss: 1.1557, loss: 1.4185 ||: 100%|##########| 288/288 [00:37<00:00,  7.73it/s]
-2024-06-29 21:17:59,233 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 21:17:59,234 - INFO - tqdm - 0%|          | 0/72 [00:00<?, ?it/s]
-2024-06-29 21:18:04,886 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8610, Lemma: 0.9885, PosFeats: 0.9763, UD-UAS: 0.9231, UD-LAS: 0.9278, EUD-UAS: 0.8509, EUD-LAS: 0.8596, Misc: 0.9975, SS: 0.8836, SC: 0.9017, Avg: 0.9232, batch_loss: 1.3805, loss: 1.7188 ||: 100%|##########| 72/72 [00:05<00:00, 13.72it/s]
-2024-06-29 21:18:04,886 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8610, Lemma: 0.9885, PosFeats: 0.9763, UD-UAS: 0.9231, UD-LAS: 0.9278, EUD-UAS: 0.8509, EUD-LAS: 0.8596, Misc: 0.9975, SS: 0.8836, SC: 0.9017, Avg: 0.9232, batch_loss: 1.3805, loss: 1.7188 ||: 100%|##########| 72/72 [00:05<00:00, 12.74it/s]
-2024-06-29 21:18:04,887 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 21:18:04,889 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.902  |     0.923
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.777  |     0.860
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.772  |     0.851
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.989  |     0.989
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.998  |     0.998
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.870  |     0.861
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.981  |     0.976
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.910  |     0.902
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.891  |     0.884
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.906  |     0.928
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.899  |     0.923
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13763.703  |       N/A
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.418  |     1.719
-2024-06-29 21:18:04,890 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.102  |       N/A
-2024-06-29 21:18:09,893 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:47.916245
-2024-06-29 21:18:09,893 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:02:11
-2024-06-29 21:18:09,893 - INFO - allennlp.training.gradient_descent_trainer - Epoch 7/9
-2024-06-29 21:18:09,893 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
-2024-06-29 21:18:09,893 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
-2024-06-29 21:18:09,894 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 21:18:09,894 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
-2024-06-29 21:18:19,941 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8582, Lemma: 0.9903, PosFeats: 0.9831, UD-UAS: 0.9009, UD-LAS: 0.9078, EUD-UAS: 0.7763, EUD-LAS: 0.7820, Misc: 0.9976, SS: 0.8988, SC: 0.9185, Avg: 0.9061, batch_loss: 1.4610, loss: 1.2907 ||:  27%|##7       | 78/288 [00:10<00:27,  7.70it/s]
-2024-06-29 21:18:29,973 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8837, Lemma: 0.9901, PosFeats: 0.9834, UD-UAS: 0.9028, UD-LAS: 0.9099, EUD-UAS: 0.7791, EUD-LAS: 0.7840, Misc: 0.9978, SS: 0.8994, SC: 0.9196, Avg: 0.9074, batch_loss: 1.0585, loss: 1.2904 ||:  55%|#####4    | 157/288 [00:20<00:16,  8.10it/s]
-2024-06-29 21:18:39,994 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8873, Lemma: 0.9902, PosFeats: 0.9835, UD-UAS: 0.9040, UD-LAS: 0.9108, EUD-UAS: 0.7793, EUD-LAS: 0.7838, Misc: 0.9978, SS: 0.8985, SC: 0.9187, Avg: 0.9074, batch_loss: 1.1812, loss: 1.2982 ||:  82%|########1 | 235/288 [00:30<00:06,  8.06it/s]
-2024-06-29 21:18:46,666 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8867, Lemma: 0.9904, PosFeats: 0.9837, UD-UAS: 0.9041, UD-LAS: 0.9110, EUD-UAS: 0.7807, EUD-LAS: 0.7853, Misc: 0.9979, SS: 0.8992, SC: 0.9190, Avg: 0.9079, batch_loss: 1.1953, loss: 1.2884 ||: 100%|#########9| 287/288 [00:36<00:00,  7.85it/s]
-2024-06-29 21:18:46,770 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8865, Lemma: 0.9904, PosFeats: 0.9837, UD-UAS: 0.9040, UD-LAS: 0.9109, EUD-UAS: 0.7807, EUD-LAS: 0.7854, Misc: 0.9979, SS: 0.8992, SC: 0.9190, Avg: 0.9079, batch_loss: 1.6287, loss: 1.2896 ||: 100%|##########| 288/288 [00:36<00:00,  8.30it/s]
-2024-06-29 21:18:46,771 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8865, Lemma: 0.9904, PosFeats: 0.9837, UD-UAS: 0.9040, UD-LAS: 0.9109, EUD-UAS: 0.7807, EUD-LAS: 0.7854, Misc: 0.9979, SS: 0.8992, SC: 0.9190, Avg: 0.9079, batch_loss: 1.6287, loss: 1.2896 ||: 100%|##########| 288/288 [00:36<00:00,  7.81it/s]
-2024-06-29 21:18:46,771 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 21:18:46,772 - INFO - tqdm - 0%|          | 0/72 [00:00<?, ?it/s]
-2024-06-29 21:18:52,438 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8648, Lemma: 0.9879, PosFeats: 0.9780, UD-UAS: 0.9268, UD-LAS: 0.9316, EUD-UAS: 0.8659, EUD-LAS: 0.8699, Misc: 0.9980, SS: 0.8863, SC: 0.9043, Avg: 0.9276, batch_loss: 1.3681, loss: 1.7252 ||: 100%|##########| 72/72 [00:05<00:00, 13.70it/s]
-2024-06-29 21:18:52,439 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8648, Lemma: 0.9879, PosFeats: 0.9780, UD-UAS: 0.9268, UD-LAS: 0.9316, EUD-UAS: 0.8659, EUD-LAS: 0.8699, Misc: 0.9980, SS: 0.8863, SC: 0.9043, Avg: 0.9276, batch_loss: 1.3681, loss: 1.7252 ||: 100%|##########| 72/72 [00:05<00:00, 12.71it/s]
-2024-06-29 21:18:52,439 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 21:18:52,441 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.908  |     0.928
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.785  |     0.870
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.781  |     0.866
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.990  |     0.988
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.998  |     0.998
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.999  |     0.998
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.886  |     0.865
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.984  |     0.978
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.919  |     0.904
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.899  |     0.886
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.911  |     0.932
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.904  |     0.927
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13763.579  |       N/A
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.290  |     1.725
-2024-06-29 21:18:52,442 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.102  |       N/A
-2024-06-29 21:18:57,247 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:47.354018
-2024-06-29 21:18:57,247 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:01:28
-2024-06-29 21:18:57,247 - INFO - allennlp.training.gradient_descent_trainer - Epoch 8/9
-2024-06-29 21:18:57,247 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
-2024-06-29 21:18:57,247 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
-2024-06-29 21:18:57,248 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 21:18:57,249 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
-2024-06-29 21:19:07,365 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8781, Lemma: 0.9914, PosFeats: 0.9846, UD-UAS: 0.9060, UD-LAS: 0.9138, EUD-UAS: 0.7818, EUD-LAS: 0.7868, Misc: 0.9981, SS: 0.9061, SC: 0.9277, Avg: 0.9107, batch_loss: 1.1627, loss: 1.1862 ||:  27%|##7       | 79/288 [00:10<00:26,  7.93it/s]
-2024-06-29 21:19:17,460 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8845, Lemma: 0.9913, PosFeats: 0.9850, UD-UAS: 0.9063, UD-LAS: 0.9130, EUD-UAS: 0.7840, EUD-LAS: 0.7886, Misc: 0.9980, SS: 0.9068, SC: 0.9265, Avg: 0.9110, batch_loss: 0.8277, loss: 1.1855 ||:  55%|#####4    | 158/288 [00:20<00:16,  8.03it/s]
-2024-06-29 21:19:27,494 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8877, Lemma: 0.9915, PosFeats: 0.9849, UD-UAS: 0.9069, UD-LAS: 0.9137, EUD-UAS: 0.7866, EUD-LAS: 0.7912, Misc: 0.9980, SS: 0.9061, SC: 0.9259, Avg: 0.9116, batch_loss: 1.2603, loss: 1.1886 ||:  82%|########1 | 236/288 [00:30<00:06,  8.11it/s]
-2024-06-29 21:19:33,967 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8886, Lemma: 0.9915, PosFeats: 0.9851, UD-UAS: 0.9080, UD-LAS: 0.9145, EUD-UAS: 0.7892, EUD-LAS: 0.7934, Misc: 0.9980, SS: 0.9062, SC: 0.9260, Avg: 0.9124, batch_loss: 1.2227, loss: 1.1811 ||: 100%|#########9| 287/288 [00:36<00:00,  7.78it/s]
-2024-06-29 21:19:34,070 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8883, Lemma: 0.9915, PosFeats: 0.9851, UD-UAS: 0.9079, UD-LAS: 0.9145, EUD-UAS: 0.7891, EUD-LAS: 0.7934, Misc: 0.9980, SS: 0.9062, SC: 0.9260, Avg: 0.9124, batch_loss: 1.3359, loss: 1.1816 ||: 100%|##########| 288/288 [00:36<00:00,  8.29it/s]
-2024-06-29 21:19:34,070 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8883, Lemma: 0.9915, PosFeats: 0.9851, UD-UAS: 0.9079, UD-LAS: 0.9145, EUD-UAS: 0.7891, EUD-LAS: 0.7934, Misc: 0.9980, SS: 0.9062, SC: 0.9260, Avg: 0.9124, batch_loss: 1.3359, loss: 1.1816 ||: 100%|##########| 288/288 [00:36<00:00,  7.82it/s]
-2024-06-29 21:19:34,070 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 21:19:34,071 - INFO - tqdm - 0%|          | 0/72 [00:00<?, ?it/s]
-2024-06-29 21:19:39,663 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8560, Lemma: 0.9897, PosFeats: 0.9786, UD-UAS: 0.9268, UD-LAS: 0.9315, EUD-UAS: 0.8517, EUD-LAS: 0.8565, Misc: 0.9981, SS: 0.8882, SC: 0.9060, Avg: 0.9252, batch_loss: 1.3256, loss: 1.7103 ||: 100%|##########| 72/72 [00:05<00:00, 13.73it/s]
-2024-06-29 21:19:39,663 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8560, Lemma: 0.9897, PosFeats: 0.9786, UD-UAS: 0.9268, UD-LAS: 0.9315, EUD-UAS: 0.8517, EUD-LAS: 0.8565, Misc: 0.9981, SS: 0.8882, SC: 0.9060, Avg: 0.9252, batch_loss: 1.3256, loss: 1.7103 ||: 100%|##########| 72/72 [00:05<00:00, 12.88it/s]
-2024-06-29 21:19:39,664 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 21:19:39,666 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 21:19:39,666 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.912  |     0.925
-2024-06-29 21:19:39,666 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.793  |     0.857
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.789  |     0.852
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.992  |     0.990
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.998  |     0.998
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.999  |     0.998
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.888  |     0.856
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.985  |     0.979
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.926  |     0.906
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.906  |     0.888
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.914  |     0.932
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.908  |     0.927
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13763.493  |       N/A
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.182  |     1.710
-2024-06-29 21:19:39,667 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.102  |       N/A
-2024-06-29 21:19:44,674 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:47.426910
-2024-06-29 21:19:44,674 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:00:44
-2024-06-29 21:19:44,674 - INFO - allennlp.training.gradient_descent_trainer - Epoch 9/9
-2024-06-29 21:19:44,674 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
-2024-06-29 21:19:44,675 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
-2024-06-29 21:19:44,676 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 21:19:44,676 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
-2024-06-29 21:19:54,680 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8977, Lemma: 0.9929, PosFeats: 0.9872, UD-UAS: 0.9077, UD-LAS: 0.9152, EUD-UAS: 0.7902, EUD-LAS: 0.7957, Misc: 0.9981, SS: 0.9101, SC: 0.9324, Avg: 0.9144, batch_loss: 1.4939, loss: 1.1257 ||:  27%|##6       | 77/288 [00:10<00:26,  7.87it/s]
-2024-06-29 21:20:04,809 - INFO - tqdm - NullAccuracy: 0.9987, NullF1: 0.9027, Lemma: 0.9925, PosFeats: 0.9866, UD-UAS: 0.9085, UD-LAS: 0.9160, EUD-UAS: 0.7895, EUD-LAS: 0.7946, Misc: 0.9982, SS: 0.9114, SC: 0.9326, Avg: 0.9144, batch_loss: 1.1374, loss: 1.1132 ||:  54%|#####3    | 155/288 [00:20<00:17,  7.52it/s]
-2024-06-29 21:20:14,927 - INFO - tqdm - NullAccuracy: 0.9987, NullF1: 0.8991, Lemma: 0.9927, PosFeats: 0.9865, UD-UAS: 0.9104, UD-LAS: 0.9175, EUD-UAS: 0.7933, EUD-LAS: 0.7980, Misc: 0.9984, SS: 0.9119, SC: 0.9324, Avg: 0.9157, batch_loss: 1.2875, loss: 1.1027 ||:  82%|########1 | 235/288 [00:30<00:06,  8.13it/s]
-2024-06-29 21:20:21,572 - INFO - tqdm - NullAccuracy: 0.9987, NullF1: 0.9010, Lemma: 0.9927, PosFeats: 0.9864, UD-UAS: 0.9101, UD-LAS: 0.9169, EUD-UAS: 0.7932, EUD-LAS: 0.7978, Misc: 0.9984, SS: 0.9118, SC: 0.9326, Avg: 0.9156, batch_loss: 1.1485, loss: 1.1026 ||: 100%|#########9| 287/288 [00:36<00:00,  7.94it/s]
-2024-06-29 21:20:21,681 - INFO - tqdm - NullAccuracy: 0.9987, NullF1: 0.9010, Lemma: 0.9927, PosFeats: 0.9864, UD-UAS: 0.9100, UD-LAS: 0.9168, EUD-UAS: 0.7932, EUD-LAS: 0.7977, Misc: 0.9984, SS: 0.9118, SC: 0.9326, Avg: 0.9155, batch_loss: 1.3377, loss: 1.1035 ||: 100%|##########| 288/288 [00:37<00:00,  8.28it/s]
-2024-06-29 21:20:21,681 - INFO - tqdm - NullAccuracy: 0.9987, NullF1: 0.9010, Lemma: 0.9927, PosFeats: 0.9864, UD-UAS: 0.9100, UD-LAS: 0.9168, EUD-UAS: 0.7932, EUD-LAS: 0.7977, Misc: 0.9984, SS: 0.9118, SC: 0.9326, Avg: 0.9155, batch_loss: 1.3377, loss: 1.1035 ||: 100%|##########| 288/288 [00:37<00:00,  7.78it/s]
-2024-06-29 21:20:21,682 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 21:20:21,683 - INFO - tqdm - 0%|          | 0/72 [00:00<?, ?it/s]
-2024-06-29 21:20:27,295 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8566, Lemma: 0.9900, PosFeats: 0.9788, UD-UAS: 0.9277, UD-LAS: 0.9325, EUD-UAS: 0.8607, EUD-LAS: 0.8651, Misc: 0.9981, SS: 0.8902, SC: 0.9073, Avg: 0.9278, batch_loss: 1.3094, loss: 1.6939 ||: 100%|##########| 72/72 [00:05<00:00, 13.70it/s]
-2024-06-29 21:20:27,295 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8566, Lemma: 0.9900, PosFeats: 0.9788, UD-UAS: 0.9277, UD-LAS: 0.9325, EUD-UAS: 0.8607, EUD-LAS: 0.8651, Misc: 0.9981, SS: 0.8902, SC: 0.9073, Avg: 0.9278, batch_loss: 1.3094, loss: 1.6939 ||: 100%|##########| 72/72 [00:05<00:00, 12.83it/s]
-2024-06-29 21:20:27,296 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.916  |     0.928
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.798  |     0.865
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.793  |     0.861
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.993  |     0.990
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.998  |     0.998
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.999  |     0.998
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.901  |     0.857
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.986  |     0.979
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.933  |     0.907
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.912  |     0.890
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.917  |     0.932
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.910  |     0.928
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13762.946  |       N/A
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.103  |     1.694
-2024-06-29 21:20:27,298 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.102  |       N/A
-2024-06-29 21:20:32,216 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:47.541983
-2024-06-29 21:20:32,218 - INFO - allennlp.common.util - Metrics: {
-  "best_epoch": 9,
-  "peak_worker_0_memory_MB": 4688.1015625,
-  "peak_gpu_0_memory_MB": 13763.97509765625,
-  "training_duration": "0:07:30.210107",
+        [  1,   5, 287,  ...,   0,   0,   0],
+        [  3, 338, 165,  ...,   0,   0,   0],
+        [  1,   9,   1,  ...,   0,   0,   0]], device='cuda:0')
+2024-07-01 01:05:21,262 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/metadata" : (Length 24 of type "<class 'conllu.models.Metadata'>")
+2024-07-01 01:05:27,962 - INFO - tqdm - NullAccuracy: 0.9971, NullF1: 0.7795, Lemma: 0.9476, PosFeats: 0.9350, UD-UAS: 0.9033, UD-LAS: 0.9122, EUD-UAS: 0.8358, EUD-LAS: 0.8451, Misc: 0.9750, SS: 0.8120, SC: 0.7300, Avg: 0.8774, batch_loss: 3.6512, loss: 3.3607 ||: 100%|##########| 73/73 [00:06<00:00, 10.67it/s]
+2024-07-01 01:05:27,963 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.815  |     0.877
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.743  |     0.845
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.736  |     0.836
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.904  |     0.948
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.951  |     0.975
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.995  |     0.997
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.424  |     0.779
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.848  |     0.935
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.661  |     0.730
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.752  |     0.812
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.874  |     0.912
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.865  |     0.903
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  1108.881  |       N/A
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - loss               |     5.159  |     3.361
+2024-07-01 01:05:27,966 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.586  |       N/A
+2024-07-01 01:05:29,560 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:27.227861
+2024-07-01 01:05:29,560 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:03:50
+2024-07-01 01:05:29,560 - INFO - allennlp.training.gradient_descent_trainer - Epoch 1/9
+2024-07-01 01:05:29,560 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
+2024-07-01 01:05:29,560 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 5.2G
+2024-07-01 01:05:29,561 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 01:05:29,561 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
+2024-07-01 01:05:39,603 - INFO - tqdm - NullAccuracy: 0.9967, NullF1: 0.7051, Lemma: 0.9471, PosFeats: 0.9363, UD-UAS: 0.8527, UD-LAS: 0.8616, EUD-UAS: 0.7087, EUD-LAS: 0.7154, Misc: 0.9718, SS: 0.8047, SC: 0.7468, Avg: 0.8383, batch_loss: 3.6332, loss: 3.5832 ||:  27%|##6       | 77/288 [00:10<00:27,  7.76it/s]
+2024-07-01 01:05:49,714 - INFO - tqdm - NullAccuracy: 0.9967, NullF1: 0.7283, Lemma: 0.9528, PosFeats: 0.9416, UD-UAS: 0.8525, UD-LAS: 0.8609, EUD-UAS: 0.7049, EUD-LAS: 0.7117, Misc: 0.9779, SS: 0.8083, SC: 0.7654, Avg: 0.8417, batch_loss: 3.1445, loss: 3.3940 ||:  54%|#####4    | 156/288 [00:20<00:16,  8.09it/s]
+2024-07-01 01:05:59,745 - INFO - tqdm - NullAccuracy: 0.9967, NullF1: 0.7221, Lemma: 0.9565, PosFeats: 0.9457, UD-UAS: 0.8534, UD-LAS: 0.8616, EUD-UAS: 0.7024, EUD-LAS: 0.7089, Misc: 0.9821, SS: 0.8122, SC: 0.7812, Avg: 0.8449, batch_loss: 2.3923, loss: 3.2449 ||:  81%|########  | 233/288 [00:30<00:07,  7.70it/s]
+2024-07-01 01:06:06,736 - INFO - tqdm - NullAccuracy: 0.9968, NullF1: 0.7355, Lemma: 0.9582, PosFeats: 0.9476, UD-UAS: 0.8559, UD-LAS: 0.8640, EUD-UAS: 0.7053, EUD-LAS: 0.7117, Misc: 0.9838, SS: 0.8148, SC: 0.7891, Avg: 0.8478, batch_loss: 3.1842, loss: 3.1531 ||: 100%|#########9| 287/288 [00:37<00:00,  7.43it/s]
+2024-07-01 01:06:06,874 - INFO - tqdm - NullAccuracy: 0.9968, NullF1: 0.7348, Lemma: 0.9582, PosFeats: 0.9476, UD-UAS: 0.8559, UD-LAS: 0.8640, EUD-UAS: 0.7054, EUD-LAS: 0.7119, Misc: 0.9839, SS: 0.8149, SC: 0.7892, Avg: 0.8479, batch_loss: 2.7613, loss: 3.1518 ||: 100%|##########| 288/288 [00:37<00:00,  7.36it/s]
+2024-07-01 01:06:06,875 - INFO - tqdm - NullAccuracy: 0.9968, NullF1: 0.7348, Lemma: 0.9582, PosFeats: 0.9476, UD-UAS: 0.8559, UD-LAS: 0.8640, EUD-UAS: 0.7054, EUD-LAS: 0.7119, Misc: 0.9839, SS: 0.8149, SC: 0.7892, Avg: 0.8479, batch_loss: 2.7613, loss: 3.1518 ||: 100%|##########| 288/288 [00:37<00:00,  7.72it/s]
+2024-07-01 01:06:06,875 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 01:06:06,876 - INFO - tqdm - 0%|          | 0/73 [00:00<?, ?it/s]
+2024-07-01 01:06:13,221 - INFO - tqdm - NullAccuracy: 0.9967, NullF1: 0.7780, Lemma: 0.9719, PosFeats: 0.9658, UD-UAS: 0.9093, UD-LAS: 0.9169, EUD-UAS: 0.8354, EUD-LAS: 0.8446, Misc: 0.9943, SS: 0.8388, SC: 0.8477, Avg: 0.9027, batch_loss: 1.5325, loss: 2.2578 ||: 100%|##########| 73/73 [00:06<00:00, 13.50it/s]
+2024-07-01 01:06:13,221 - INFO - tqdm - NullAccuracy: 0.9967, NullF1: 0.7780, Lemma: 0.9719, PosFeats: 0.9658, UD-UAS: 0.9093, UD-LAS: 0.9169, EUD-UAS: 0.8354, EUD-LAS: 0.8446, Misc: 0.9943, SS: 0.8388, SC: 0.8477, Avg: 0.9027, batch_loss: 1.5325, loss: 2.2578 ||: 100%|##########| 73/73 [00:06<00:00, 11.51it/s]
+2024-07-01 01:06:13,221 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 01:06:13,223 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 01:06:13,223 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.848  |     0.903
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.712  |     0.845
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.705  |     0.835
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.958  |     0.972
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.984  |     0.994
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.997  |     0.997
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.735  |     0.778
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.948  |     0.966
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.789  |     0.848
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.815  |     0.839
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.864  |     0.917
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.856  |     0.909
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  5327.609  |       N/A
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - loss               |     3.152  |     2.258
+2024-07-01 01:06:13,224 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.586  |       N/A
+2024-07-01 01:06:17,603 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:48.043384
+2024-07-01 01:06:17,603 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:04:43
+2024-07-01 01:06:17,603 - INFO - allennlp.training.gradient_descent_trainer - Epoch 2/9
+2024-07-01 01:06:17,603 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
+2024-07-01 01:06:17,604 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
+2024-07-01 01:06:17,605 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 01:06:17,605 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
+2024-07-01 01:06:27,670 - INFO - tqdm - NullAccuracy: 0.9977, NullF1: 0.8189, Lemma: 0.9713, PosFeats: 0.9640, UD-UAS: 0.8661, UD-LAS: 0.8747, EUD-UAS: 0.7186, EUD-LAS: 0.7244, Misc: 0.9936, SS: 0.8417, SC: 0.8445, Avg: 0.8666, batch_loss: 2.4425, loss: 2.4353 ||:  27%|##6       | 77/288 [00:10<00:27,  7.79it/s]
+2024-07-01 01:06:37,726 - INFO - tqdm - NullAccuracy: 0.9975, NullF1: 0.8019, Lemma: 0.9727, PosFeats: 0.9641, UD-UAS: 0.8716, UD-LAS: 0.8792, EUD-UAS: 0.7253, EUD-LAS: 0.7306, Misc: 0.9940, SS: 0.8427, SC: 0.8472, Avg: 0.8697, batch_loss: 2.6694, loss: 2.3920 ||:  54%|#####4    | 156/288 [00:20<00:16,  8.06it/s]
+2024-07-01 01:06:47,834 - INFO - tqdm - NullAccuracy: 0.9975, NullF1: 0.7985, Lemma: 0.9734, PosFeats: 0.9648, UD-UAS: 0.8720, UD-LAS: 0.8793, EUD-UAS: 0.7250, EUD-LAS: 0.7301, Misc: 0.9945, SS: 0.8426, SC: 0.8497, Avg: 0.8701, batch_loss: 2.5298, loss: 2.3585 ||:  82%|########1 | 235/288 [00:30<00:06,  7.94it/s]
+2024-07-01 01:06:54,558 - INFO - tqdm - NullAccuracy: 0.9975, NullF1: 0.8000, Lemma: 0.9739, PosFeats: 0.9654, UD-UAS: 0.8713, UD-LAS: 0.8787, EUD-UAS: 0.7247, EUD-LAS: 0.7300, Misc: 0.9944, SS: 0.8437, SC: 0.8516, Avg: 0.8704, batch_loss: 2.5721, loss: 2.3475 ||: 100%|#########9| 287/288 [00:36<00:00,  7.60it/s]
+2024-07-01 01:06:54,690 - INFO - tqdm - NullAccuracy: 0.9975, NullF1: 0.7992, Lemma: 0.9738, PosFeats: 0.9653, UD-UAS: 0.8714, UD-LAS: 0.8788, EUD-UAS: 0.7247, EUD-LAS: 0.7300, Misc: 0.9944, SS: 0.8438, SC: 0.8516, Avg: 0.8704, batch_loss: 2.2101, loss: 2.3470 ||: 100%|##########| 288/288 [00:37<00:00,  7.60it/s]
+2024-07-01 01:06:54,690 - INFO - tqdm - NullAccuracy: 0.9975, NullF1: 0.7992, Lemma: 0.9738, PosFeats: 0.9653, UD-UAS: 0.8714, UD-LAS: 0.8788, EUD-UAS: 0.7247, EUD-LAS: 0.7300, Misc: 0.9944, SS: 0.8438, SC: 0.8516, Avg: 0.8704, batch_loss: 2.2101, loss: 2.3470 ||: 100%|##########| 288/288 [00:37<00:00,  7.77it/s]
+2024-07-01 01:06:54,691 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 01:06:54,692 - INFO - tqdm - 0%|          | 0/73 [00:00<?, ?it/s]
+2024-07-01 01:07:01,059 - INFO - tqdm - NullAccuracy: 0.9976, NullF1: 0.8048, Lemma: 0.9793, PosFeats: 0.9714, UD-UAS: 0.9169, UD-LAS: 0.9245, EUD-UAS: 0.8027, EUD-LAS: 0.8105, Misc: 0.9960, SS: 0.8569, SC: 0.8718, Avg: 0.9033, batch_loss: 0.8495, loss: 1.9453 ||: 100%|##########| 73/73 [00:06<00:00, 13.20it/s]
+2024-07-01 01:07:01,060 - INFO - tqdm - NullAccuracy: 0.9976, NullF1: 0.8048, Lemma: 0.9793, PosFeats: 0.9714, UD-UAS: 0.9169, UD-LAS: 0.9245, EUD-UAS: 0.8027, EUD-LAS: 0.8105, Misc: 0.9960, SS: 0.8569, SC: 0.8718, Avg: 0.9033, batch_loss: 0.8495, loss: 1.9453 ||: 100%|##########| 73/73 [00:06<00:00, 11.47it/s]
+2024-07-01 01:07:01,060 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.870  |     0.903
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.730  |     0.810
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.725  |     0.803
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.974  |     0.979
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.994  |     0.996
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.997  |     0.998
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.799  |     0.805
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.965  |     0.971
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.852  |     0.872
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.844  |     0.857
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.879  |     0.924
+2024-07-01 01:07:01,062 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.871  |     0.917
+2024-07-01 01:07:01,063 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13761.436  |       N/A
+2024-07-01 01:07:01,063 - INFO - allennlp.training.callbacks.console_logger - loss               |     2.347  |     1.945
+2024-07-01 01:07:01,063 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.586  |       N/A
+2024-07-01 01:07:05,648 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:48.044233
+2024-07-01 01:07:05,648 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:04:37
+2024-07-01 01:07:05,648 - INFO - allennlp.training.gradient_descent_trainer - Epoch 3/9
+2024-07-01 01:07:05,648 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
+2024-07-01 01:07:05,648 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
+2024-07-01 01:07:05,649 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 01:07:05,649 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
+2024-07-01 01:07:15,684 - INFO - tqdm - NullAccuracy: 0.9979, NullF1: 0.8300, Lemma: 0.9790, PosFeats: 0.9715, UD-UAS: 0.8838, UD-LAS: 0.8897, EUD-UAS: 0.7426, EUD-LAS: 0.7460, Misc: 0.9960, SS: 0.8598, SC: 0.8735, Avg: 0.8824, batch_loss: 1.9199, loss: 1.9740 ||:  27%|##7       | 78/288 [00:10<00:26,  7.93it/s]
+2024-07-01 01:07:25,803 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8139, Lemma: 0.9798, PosFeats: 0.9718, UD-UAS: 0.8827, UD-LAS: 0.8889, EUD-UAS: 0.7425, EUD-LAS: 0.7464, Misc: 0.9958, SS: 0.8603, SC: 0.8729, Avg: 0.8823, batch_loss: 2.2735, loss: 2.0007 ||:  54%|#####4    | 156/288 [00:20<00:17,  7.67it/s]
+2024-07-01 01:07:35,920 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8228, Lemma: 0.9804, PosFeats: 0.9716, UD-UAS: 0.8839, UD-LAS: 0.8901, EUD-UAS: 0.7449, EUD-LAS: 0.7488, Misc: 0.9959, SS: 0.8608, SC: 0.8727, Avg: 0.8832, batch_loss: 2.2628, loss: 1.9899 ||:  82%|########1 | 235/288 [00:30<00:06,  7.71it/s]
+2024-07-01 01:07:42,773 - INFO - tqdm - NullAccuracy: 0.9977, NullF1: 0.8212, Lemma: 0.9803, PosFeats: 0.9714, UD-UAS: 0.8831, UD-LAS: 0.8899, EUD-UAS: 0.7439, EUD-LAS: 0.7483, Misc: 0.9960, SS: 0.8610, SC: 0.8736, Avg: 0.8831, batch_loss: 2.1204, loss: 1.9888 ||: 100%|#########9| 287/288 [00:37<00:00,  7.79it/s]
+2024-07-01 01:07:42,903 - INFO - tqdm - NullAccuracy: 0.9977, NullF1: 0.8213, Lemma: 0.9803, PosFeats: 0.9713, UD-UAS: 0.8831, UD-LAS: 0.8899, EUD-UAS: 0.7438, EUD-LAS: 0.7483, Misc: 0.9960, SS: 0.8609, SC: 0.8736, Avg: 0.8830, batch_loss: 2.5772, loss: 1.9909 ||: 100%|##########| 288/288 [00:37<00:00,  7.76it/s]
+2024-07-01 01:07:42,903 - INFO - tqdm - NullAccuracy: 0.9977, NullF1: 0.8213, Lemma: 0.9803, PosFeats: 0.9713, UD-UAS: 0.8831, UD-LAS: 0.8899, EUD-UAS: 0.7438, EUD-LAS: 0.7483, Misc: 0.9960, SS: 0.8609, SC: 0.8736, Avg: 0.8830, batch_loss: 2.5772, loss: 1.9909 ||: 100%|##########| 288/288 [00:37<00:00,  7.73it/s]
+2024-07-01 01:07:42,904 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 01:07:42,905 - INFO - tqdm - 0%|          | 0/73 [00:00<?, ?it/s]
+2024-07-01 01:07:49,049 - INFO - tqdm - NullAccuracy: 0.9979, NullF1: 0.8411, Lemma: 0.9835, PosFeats: 0.9732, UD-UAS: 0.9208, UD-LAS: 0.9278, EUD-UAS: 0.8573, EUD-LAS: 0.8635, Misc: 0.9969, SS: 0.8694, SC: 0.8822, Avg: 0.9194, batch_loss: 0.6331, loss: 1.8129 ||: 100%|##########| 73/73 [00:06<00:00, 13.68it/s]
+2024-07-01 01:07:49,049 - INFO - tqdm - NullAccuracy: 0.9979, NullF1: 0.8411, Lemma: 0.9835, PosFeats: 0.9732, UD-UAS: 0.9208, UD-LAS: 0.9278, EUD-UAS: 0.8573, EUD-LAS: 0.8635, Misc: 0.9969, SS: 0.8694, SC: 0.8822, Avg: 0.9194, batch_loss: 0.6331, loss: 1.8129 ||: 100%|##########| 73/73 [00:06<00:00, 11.88it/s]
+2024-07-01 01:07:49,049 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 01:07:49,051 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.883  |     0.919
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.748  |     0.863
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.744  |     0.857
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.980  |     0.984
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.996  |     0.997
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.821  |     0.841
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.971  |     0.973
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.874  |     0.882
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.861  |     0.869
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.890  |     0.928
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.883  |     0.921
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13762.667  |       N/A
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.991  |     1.813
+2024-07-01 01:07:49,052 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.586  |       N/A
+2024-07-01 01:07:53,907 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:48.259178
+2024-07-01 01:07:53,907 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:04:10
+2024-07-01 01:07:53,907 - INFO - allennlp.training.gradient_descent_trainer - Epoch 4/9
+2024-07-01 01:07:53,907 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
+2024-07-01 01:07:53,907 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
+2024-07-01 01:07:53,909 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 01:07:53,909 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
+2024-07-01 01:08:03,984 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8361, Lemma: 0.9841, PosFeats: 0.9758, UD-UAS: 0.8884, UD-LAS: 0.8961, EUD-UAS: 0.7515, EUD-LAS: 0.7560, Misc: 0.9963, SS: 0.8743, SC: 0.8916, Avg: 0.8904, batch_loss: 1.7805, loss: 1.7377 ||:  27%|##7       | 78/288 [00:10<00:26,  7.89it/s]
+2024-07-01 01:08:14,086 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8399, Lemma: 0.9835, PosFeats: 0.9751, UD-UAS: 0.8898, UD-LAS: 0.8967, EUD-UAS: 0.7550, EUD-LAS: 0.7594, Misc: 0.9963, SS: 0.8734, SC: 0.8879, Avg: 0.8908, batch_loss: 1.9245, loss: 1.7564 ||:  53%|#####2    | 152/288 [00:20<00:17,  7.68it/s]
+2024-07-01 01:08:24,169 - INFO - tqdm - NullAccuracy: 0.9979, NullF1: 0.8401, Lemma: 0.9840, PosFeats: 0.9755, UD-UAS: 0.8894, UD-LAS: 0.8962, EUD-UAS: 0.7543, EUD-LAS: 0.7588, Misc: 0.9964, SS: 0.8727, SC: 0.8886, Avg: 0.8907, batch_loss: 1.5258, loss: 1.7559 ||:  79%|#######9  | 228/288 [00:30<00:08,  7.08it/s]
+2024-07-01 01:08:32,180 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8475, Lemma: 0.9842, PosFeats: 0.9757, UD-UAS: 0.8905, UD-LAS: 0.8971, EUD-UAS: 0.7550, EUD-LAS: 0.7595, Misc: 0.9965, SS: 0.8727, SC: 0.8888, Avg: 0.8911, batch_loss: 1.4226, loss: 1.7490 ||: 100%|#########9| 287/288 [00:38<00:00,  7.32it/s]
+2024-07-01 01:08:32,315 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8475, Lemma: 0.9841, PosFeats: 0.9756, UD-UAS: 0.8904, UD-LAS: 0.8971, EUD-UAS: 0.7548, EUD-LAS: 0.7592, Misc: 0.9965, SS: 0.8727, SC: 0.8887, Avg: 0.8910, batch_loss: 2.1027, loss: 1.7503 ||: 100%|##########| 288/288 [00:38<00:00,  7.34it/s]
+2024-07-01 01:08:32,316 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8475, Lemma: 0.9841, PosFeats: 0.9756, UD-UAS: 0.8904, UD-LAS: 0.8971, EUD-UAS: 0.7548, EUD-LAS: 0.7592, Misc: 0.9965, SS: 0.8727, SC: 0.8887, Avg: 0.8910, batch_loss: 2.1027, loss: 1.7503 ||: 100%|##########| 288/288 [00:38<00:00,  7.50it/s]
+2024-07-01 01:08:32,316 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 01:08:32,318 - INFO - tqdm - 0%|          | 0/73 [00:00<?, ?it/s]
+2024-07-01 01:08:39,147 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8587, Lemma: 0.9855, PosFeats: 0.9751, UD-UAS: 0.9244, UD-LAS: 0.9311, EUD-UAS: 0.8167, EUD-LAS: 0.8268, Misc: 0.9974, SS: 0.8757, SC: 0.8918, Avg: 0.9138, batch_loss: 0.5221, loss: 1.7386 ||: 100%|##########| 73/73 [00:06<00:00, 10.69it/s]
+2024-07-01 01:08:39,147 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 01:08:39,150 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 01:08:39,150 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.891  |     0.914
+2024-07-01 01:08:39,150 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.759  |     0.827
+2024-07-01 01:08:39,150 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.755  |     0.817
+2024-07-01 01:08:39,150 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.984  |     0.986
+2024-07-01 01:08:39,150 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.997  |     0.997
+2024-07-01 01:08:39,150 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
+2024-07-01 01:08:39,151 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.848  |     0.859
+2024-07-01 01:08:39,151 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.976  |     0.975
+2024-07-01 01:08:39,151 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.889  |     0.892
+2024-07-01 01:08:39,151 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.873  |     0.876
+2024-07-01 01:08:39,151 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.897  |     0.931
+2024-07-01 01:08:39,151 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.890  |     0.924
+2024-07-01 01:08:39,151 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13763.827  |       N/A
+2024-07-01 01:08:39,151 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.750  |     1.739
+2024-07-01 01:08:39,151 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.586  |       N/A
+2024-07-01 01:08:44,019 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:50.111424
+2024-07-01 01:08:44,019 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:03:36
+2024-07-01 01:08:44,019 - INFO - allennlp.training.gradient_descent_trainer - Epoch 5/9
+2024-07-01 01:08:44,019 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
+2024-07-01 01:08:44,019 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
+2024-07-01 01:08:44,020 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 01:08:44,020 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
+2024-07-01 01:08:54,067 - INFO - tqdm - NullAccuracy: 0.9986, NullF1: 0.8909, Lemma: 0.9867, PosFeats: 0.9792, UD-UAS: 0.8957, UD-LAS: 0.9020, EUD-UAS: 0.7669, EUD-LAS: 0.7727, Misc: 0.9969, SS: 0.8849, SC: 0.9028, Avg: 0.8986, batch_loss: 1.6968, loss: 1.5210 ||:  26%|##6       | 76/288 [00:10<00:27,  7.60it/s]
+2024-07-01 01:09:04,079 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8734, Lemma: 0.9867, PosFeats: 0.9785, UD-UAS: 0.8982, UD-LAS: 0.9046, EUD-UAS: 0.7682, EUD-LAS: 0.7734, Misc: 0.9969, SS: 0.8829, SC: 0.9012, Avg: 0.8990, batch_loss: 1.4381, loss: 1.5368 ||:  52%|#####2    | 151/288 [00:20<00:18,  7.35it/s]
+2024-07-01 01:09:14,123 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8653, Lemma: 0.9863, PosFeats: 0.9784, UD-UAS: 0.8978, UD-LAS: 0.9042, EUD-UAS: 0.7672, EUD-LAS: 0.7718, Misc: 0.9971, SS: 0.8830, SC: 0.8994, Avg: 0.8983, batch_loss: 1.4323, loss: 1.5539 ||:  78%|#######8  | 226/288 [00:30<00:08,  7.74it/s]
+2024-07-01 01:09:22,423 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8604, Lemma: 0.9865, PosFeats: 0.9785, UD-UAS: 0.8977, UD-LAS: 0.9039, EUD-UAS: 0.7676, EUD-LAS: 0.7717, Misc: 0.9971, SS: 0.8827, SC: 0.8995, Avg: 0.8984, batch_loss: 1.7677, loss: 1.5600 ||: 100%|#########9| 287/288 [00:38<00:00,  7.21it/s]
+2024-07-01 01:09:22,565 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8600, Lemma: 0.9865, PosFeats: 0.9784, UD-UAS: 0.8977, UD-LAS: 0.9038, EUD-UAS: 0.7674, EUD-LAS: 0.7716, Misc: 0.9971, SS: 0.8827, SC: 0.8995, Avg: 0.8983, batch_loss: 1.8640, loss: 1.5610 ||: 100%|##########| 288/288 [00:38<00:00,  7.16it/s]
+2024-07-01 01:09:22,565 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8600, Lemma: 0.9865, PosFeats: 0.9784, UD-UAS: 0.8977, UD-LAS: 0.9038, EUD-UAS: 0.7674, EUD-LAS: 0.7716, Misc: 0.9971, SS: 0.8827, SC: 0.8995, Avg: 0.8983, batch_loss: 1.8640, loss: 1.5610 ||: 100%|##########| 288/288 [00:38<00:00,  7.47it/s]
+2024-07-01 01:09:22,565 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 01:09:22,567 - INFO - tqdm - 0%|          | 0/73 [00:00<?, ?it/s]
+2024-07-01 01:09:28,797 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8556, Lemma: 0.9870, PosFeats: 0.9763, UD-UAS: 0.9278, UD-LAS: 0.9340, EUD-UAS: 0.8473, EUD-LAS: 0.8518, Misc: 0.9977, SS: 0.8800, SC: 0.8954, Avg: 0.9219, batch_loss: 0.3838, loss: 1.6664 ||: 100%|##########| 73/73 [00:06<00:00, 13.45it/s]
+2024-07-01 01:09:28,798 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8556, Lemma: 0.9870, PosFeats: 0.9763, UD-UAS: 0.9278, UD-LAS: 0.9340, EUD-UAS: 0.8473, EUD-LAS: 0.8518, Misc: 0.9977, SS: 0.8800, SC: 0.8954, Avg: 0.9219, batch_loss: 0.3838, loss: 1.6664 ||: 100%|##########| 73/73 [00:06<00:00, 11.72it/s]
+2024-07-01 01:09:28,798 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 01:09:28,800 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.898  |     0.922
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.772  |     0.852
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.767  |     0.847
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.987  |     0.987
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.997  |     0.998
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.860  |     0.856
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.978  |     0.976
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.900  |     0.895
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.883  |     0.880
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.904  |     0.934
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.898  |     0.928
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13761.486  |       N/A
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.561  |     1.666
+2024-07-01 01:09:28,801 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.586  |       N/A
+2024-07-01 01:09:33,894 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:49.874738
+2024-07-01 01:09:33,894 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:02:57
+2024-07-01 01:09:33,894 - INFO - allennlp.training.gradient_descent_trainer - Epoch 6/9
+2024-07-01 01:09:33,894 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
+2024-07-01 01:09:33,894 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
+2024-07-01 01:09:33,895 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 01:09:33,895 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
+2024-07-01 01:09:43,935 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8594, Lemma: 0.9891, PosFeats: 0.9810, UD-UAS: 0.8968, UD-LAS: 0.9034, EUD-UAS: 0.7665, EUD-LAS: 0.7712, Misc: 0.9975, SS: 0.8910, SC: 0.9086, Avg: 0.9006, batch_loss: 1.6319, loss: 1.4347 ||:  26%|##5       | 74/288 [00:10<00:28,  7.62it/s]
+2024-07-01 01:09:53,947 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8534, Lemma: 0.9887, PosFeats: 0.9809, UD-UAS: 0.8993, UD-LAS: 0.9056, EUD-UAS: 0.7715, EUD-LAS: 0.7759, Misc: 0.9976, SS: 0.8906, SC: 0.9084, Avg: 0.9021, batch_loss: 1.4001, loss: 1.4203 ||:  52%|#####2    | 150/288 [00:20<00:18,  7.56it/s]
+2024-07-01 01:10:04,035 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8674, Lemma: 0.9885, PosFeats: 0.9810, UD-UAS: 0.8998, UD-LAS: 0.9064, EUD-UAS: 0.7733, EUD-LAS: 0.7781, Misc: 0.9976, SS: 0.8910, SC: 0.9085, Avg: 0.9027, batch_loss: 1.2343, loss: 1.4164 ||:  79%|#######8  | 227/288 [00:30<00:08,  7.41it/s]
+2024-07-01 01:10:11,938 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8662, Lemma: 0.9884, PosFeats: 0.9810, UD-UAS: 0.9006, UD-LAS: 0.9069, EUD-UAS: 0.7752, EUD-LAS: 0.7798, Misc: 0.9975, SS: 0.8905, SC: 0.9086, Avg: 0.9032, batch_loss: 1.4120, loss: 1.4173 ||: 100%|#########9| 287/288 [00:38<00:00,  7.46it/s]
+2024-07-01 01:10:12,084 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8665, Lemma: 0.9884, PosFeats: 0.9810, UD-UAS: 0.9007, UD-LAS: 0.9070, EUD-UAS: 0.7752, EUD-LAS: 0.7798, Misc: 0.9975, SS: 0.8906, SC: 0.9087, Avg: 0.9032, batch_loss: 1.1880, loss: 1.4165 ||: 100%|##########| 288/288 [00:38<00:00,  7.26it/s]
+2024-07-01 01:10:12,084 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8665, Lemma: 0.9884, PosFeats: 0.9810, UD-UAS: 0.9007, UD-LAS: 0.9070, EUD-UAS: 0.7752, EUD-LAS: 0.7798, Misc: 0.9975, SS: 0.8906, SC: 0.9087, Avg: 0.9032, batch_loss: 1.1880, loss: 1.4165 ||: 100%|##########| 288/288 [00:38<00:00,  7.54it/s]
+2024-07-01 01:10:12,085 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 01:10:12,086 - INFO - tqdm - 0%|          | 0/73 [00:00<?, ?it/s]
+2024-07-01 01:10:18,216 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8649, Lemma: 0.9877, PosFeats: 0.9773, UD-UAS: 0.9262, UD-LAS: 0.9323, EUD-UAS: 0.8593, EUD-LAS: 0.8675, Misc: 0.9975, SS: 0.8830, SC: 0.8994, Avg: 0.9256, batch_loss: 0.4130, loss: 1.6770 ||: 100%|##########| 73/73 [00:06<00:00, 11.91it/s]
+2024-07-01 01:10:18,217 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.903  |     0.926
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.780  |     0.867
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.775  |     0.859
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.988  |     0.988
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.998  |     0.997
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.866  |     0.865
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.981  |     0.977
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.909  |     0.899
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.891  |     0.883
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.907  |     0.932
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.901  |     0.926
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13762.111  |       N/A
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.417  |     1.677
+2024-07-01 01:10:18,219 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.586  |       N/A
+2024-07-01 01:10:23,264 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:49.370748
+2024-07-01 01:10:23,265 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:02:15
+2024-07-01 01:10:23,265 - INFO - allennlp.training.gradient_descent_trainer - Epoch 7/9
+2024-07-01 01:10:23,265 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
+2024-07-01 01:10:23,265 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
+2024-07-01 01:10:23,266 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 01:10:23,266 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
+2024-07-01 01:10:33,324 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8790, Lemma: 0.9904, PosFeats: 0.9828, UD-UAS: 0.9041, UD-LAS: 0.9103, EUD-UAS: 0.7851, EUD-LAS: 0.7898, Misc: 0.9982, SS: 0.8989, SC: 0.9185, Avg: 0.9087, batch_loss: 1.4969, loss: 1.2893 ||:  26%|##5       | 74/288 [00:10<00:28,  7.43it/s]
+2024-07-01 01:10:43,393 - INFO - tqdm - NullAccuracy: 0.9986, NullF1: 0.8911, Lemma: 0.9906, PosFeats: 0.9832, UD-UAS: 0.9051, UD-LAS: 0.9113, EUD-UAS: 0.7838, EUD-LAS: 0.7881, Misc: 0.9980, SS: 0.9001, SC: 0.9190, Avg: 0.9088, batch_loss: 1.3856, loss: 1.2728 ||:  52%|#####2    | 150/288 [00:20<00:17,  7.96it/s]
+2024-07-01 01:10:53,488 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8885, Lemma: 0.9906, PosFeats: 0.9830, UD-UAS: 0.9048, UD-LAS: 0.9108, EUD-UAS: 0.7838, EUD-LAS: 0.7882, Misc: 0.9979, SS: 0.8993, SC: 0.9180, Avg: 0.9085, batch_loss: 1.1403, loss: 1.2816 ||:  79%|#######9  | 228/288 [00:30<00:07,  7.73it/s]
+2024-07-01 01:11:01,200 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8848, Lemma: 0.9904, PosFeats: 0.9829, UD-UAS: 0.9059, UD-LAS: 0.9120, EUD-UAS: 0.7853, EUD-LAS: 0.7898, Misc: 0.9979, SS: 0.8986, SC: 0.9172, Avg: 0.9089, batch_loss: 1.2534, loss: 1.2862 ||: 100%|#########9| 287/288 [00:37<00:00,  7.59it/s]
+2024-07-01 01:11:01,323 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8845, Lemma: 0.9904, PosFeats: 0.9829, UD-UAS: 0.9059, UD-LAS: 0.9119, EUD-UAS: 0.7852, EUD-LAS: 0.7897, Misc: 0.9979, SS: 0.8986, SC: 0.9172, Avg: 0.9089, batch_loss: 1.0956, loss: 1.2855 ||: 100%|##########| 288/288 [00:38<00:00,  7.75it/s]
+2024-07-01 01:11:01,323 - INFO - tqdm - NullAccuracy: 0.9985, NullF1: 0.8845, Lemma: 0.9904, PosFeats: 0.9829, UD-UAS: 0.9059, UD-LAS: 0.9119, EUD-UAS: 0.7852, EUD-LAS: 0.7897, Misc: 0.9979, SS: 0.8986, SC: 0.9172, Avg: 0.9089, batch_loss: 1.0956, loss: 1.2855 ||: 100%|##########| 288/288 [00:38<00:00,  7.57it/s]
+2024-07-01 01:11:01,324 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 01:11:01,325 - INFO - tqdm - 0%|          | 0/73 [00:00<?, ?it/s]
+2024-07-01 01:11:07,430 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8729, Lemma: 0.9883, PosFeats: 0.9782, UD-UAS: 0.9288, UD-LAS: 0.9344, EUD-UAS: 0.8679, EUD-LAS: 0.8732, Misc: 0.9979, SS: 0.8860, SC: 0.9035, Avg: 0.9287, batch_loss: 0.4922, loss: 1.6413 ||: 100%|##########| 73/73 [00:06<00:00, 13.80it/s]
+2024-07-01 01:11:07,430 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8729, Lemma: 0.9883, PosFeats: 0.9782, UD-UAS: 0.9288, UD-LAS: 0.9344, EUD-UAS: 0.8679, EUD-LAS: 0.8732, Misc: 0.9979, SS: 0.8860, SC: 0.9035, Avg: 0.9287, batch_loss: 0.4922, loss: 1.6413 ||: 100%|##########| 73/73 [00:06<00:00, 11.96it/s]
+2024-07-01 01:11:07,431 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 01:11:07,433 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.909  |     0.929
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.790  |     0.873
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.785  |     0.868
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.990  |     0.988
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.998  |     0.998
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.885  |     0.873
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.983  |     0.978
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.917  |     0.903
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.899  |     0.886
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.912  |     0.934
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.906  |     0.929
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13761.280  |       N/A
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.286  |     1.641
+2024-07-01 01:11:07,434 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.586  |       N/A
+2024-07-01 01:11:12,472 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:49.207770
+2024-07-01 01:11:12,473 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:01:31
+2024-07-01 01:11:12,473 - INFO - allennlp.training.gradient_descent_trainer - Epoch 8/9
+2024-07-01 01:11:12,473 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
+2024-07-01 01:11:12,473 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 14G
+2024-07-01 01:11:12,474 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 01:11:12,474 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
+2024-07-01 01:11:22,542 - INFO - tqdm - NullAccuracy: 0.9988, NullF1: 0.9113, Lemma: 0.9916, PosFeats: 0.9852, UD-UAS: 0.9130, UD-LAS: 0.9191, EUD-UAS: 0.7924, EUD-LAS: 0.7966, Misc: 0.9984, SS: 0.9047, SC: 0.9248, Avg: 0.9140, batch_loss: 1.2923, loss: 1.1769 ||:  27%|##7       | 78/288 [00:10<00:28,  7.41it/s]
+2024-07-01 01:11:32,625 - INFO - tqdm - NullAccuracy: 0.9986, NullF1: 0.8971, Lemma: 0.9915, PosFeats: 0.9851, UD-UAS: 0.9101, UD-LAS: 0.9161, EUD-UAS: 0.7897, EUD-LAS: 0.7937, Misc: 0.9983, SS: 0.9064, SC: 0.9242, Avg: 0.9128, batch_loss: 1.2059, loss: 1.1792 ||:  54%|#####3    | 155/288 [00:20<00:17,  7.51it/s]
+2024-07-01 01:11:42,682 - INFO - tqdm - NullAccuracy: 0.9986, NullF1: 0.8967, Lemma: 0.9916, PosFeats: 0.9851, UD-UAS: 0.9106, UD-LAS: 0.9162, EUD-UAS: 0.7911, EUD-LAS: 0.7950, Misc: 0.9981, SS: 0.9052, SC: 0.9244, Avg: 0.9130, batch_loss: 1.1550, loss: 1.1786 ||:  81%|########  | 232/288 [00:30<00:07,  7.60it/s]
+2024-07-01 01:11:49,911 - INFO - tqdm - NullAccuracy: 0.9986, NullF1: 0.8953, Lemma: 0.9917, PosFeats: 0.9850, UD-UAS: 0.9106, UD-LAS: 0.9163, EUD-UAS: 0.7916, EUD-LAS: 0.7955, Misc: 0.9981, SS: 0.9050, SC: 0.9242, Avg: 0.9131, batch_loss: 1.0607, loss: 1.1817 ||: 100%|#########9| 287/288 [00:37<00:00,  7.47it/s]
+2024-07-01 01:11:50,041 - INFO - tqdm - NullAccuracy: 0.9986, NullF1: 0.8955, Lemma: 0.9917, PosFeats: 0.9850, UD-UAS: 0.9106, UD-LAS: 0.9163, EUD-UAS: 0.7915, EUD-LAS: 0.7955, Misc: 0.9980, SS: 0.9050, SC: 0.9242, Avg: 0.9131, batch_loss: 1.1916, loss: 1.1817 ||: 100%|##########| 288/288 [00:37<00:00,  7.53it/s]
+2024-07-01 01:11:50,041 - INFO - tqdm - NullAccuracy: 0.9986, NullF1: 0.8955, Lemma: 0.9917, PosFeats: 0.9850, UD-UAS: 0.9106, UD-LAS: 0.9163, EUD-UAS: 0.7915, EUD-LAS: 0.7955, Misc: 0.9980, SS: 0.9050, SC: 0.9242, Avg: 0.9131, batch_loss: 1.1916, loss: 1.1817 ||: 100%|##########| 288/288 [00:37<00:00,  7.67it/s]
+2024-07-01 01:11:50,042 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 01:11:50,044 - INFO - tqdm - 0%|          | 0/73 [00:00<?, ?it/s]
+2024-07-01 01:11:56,088 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8686, Lemma: 0.9893, PosFeats: 0.9787, UD-UAS: 0.9298, UD-LAS: 0.9354, EUD-UAS: 0.8588, EUD-LAS: 0.8640, Misc: 0.9979, SS: 0.8876, SC: 0.9038, Avg: 0.9273, batch_loss: 0.4503, loss: 1.6522 ||: 100%|##########| 73/73 [00:06<00:00, 12.08it/s]
+2024-07-01 01:11:56,088 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.913  |     0.927
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.795  |     0.864
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.791  |     0.859
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.992  |     0.989
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.998  |     0.998
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.999  |     0.998
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.896  |     0.869
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.985  |     0.979
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.924  |     0.904
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.905  |     0.888
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.916  |     0.935
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.911  |     0.930
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13920.969  |       N/A
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.182  |     1.652
+2024-07-01 01:11:56,091 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.586  |       N/A
+2024-07-01 01:12:01,116 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:48.643136
+2024-07-01 01:12:01,116 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:00:45
+2024-07-01 01:12:01,116 - INFO - allennlp.training.gradient_descent_trainer - Epoch 9/9
+2024-07-01 01:12:01,116 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.6G
+2024-07-01 01:12:01,116 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 13G
+2024-07-01 01:12:01,117 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 01:12:01,117 - INFO - tqdm - 0%|          | 0/288 [00:00<?, ?it/s]
+2024-07-01 01:12:11,233 - INFO - tqdm - NullAccuracy: 0.9988, NullF1: 0.9091, Lemma: 0.9927, PosFeats: 0.9863, UD-UAS: 0.9145, UD-LAS: 0.9201, EUD-UAS: 0.7996, EUD-LAS: 0.8048, Misc: 0.9982, SS: 0.9105, SC: 0.9310, Avg: 0.9175, batch_loss: 1.1025, loss: 1.1048 ||:  27%|##7       | 78/288 [00:10<00:27,  7.60it/s]
+2024-07-01 01:12:21,299 - INFO - tqdm - NullAccuracy: 0.9988, NullF1: 0.9113, Lemma: 0.9928, PosFeats: 0.9862, UD-UAS: 0.9127, UD-LAS: 0.9182, EUD-UAS: 0.7960, EUD-LAS: 0.8006, Misc: 0.9981, SS: 0.9097, SC: 0.9311, Avg: 0.9162, batch_loss: 1.0655, loss: 1.1175 ||:  54%|#####3    | 155/288 [00:20<00:17,  7.63it/s]
+2024-07-01 01:12:31,306 - INFO - tqdm - NullAccuracy: 0.9988, NullF1: 0.9058, Lemma: 0.9928, PosFeats: 0.9864, UD-UAS: 0.9136, UD-LAS: 0.9193, EUD-UAS: 0.7968, EUD-LAS: 0.8014, Misc: 0.9982, SS: 0.9103, SC: 0.9315, Avg: 0.9167, batch_loss: 0.8306, loss: 1.1045 ||:  80%|#######9  | 230/288 [00:30<00:07,  7.83it/s]
+2024-07-01 01:12:38,788 - INFO - tqdm - NullAccuracy: 0.9988, NullF1: 0.9067, Lemma: 0.9926, PosFeats: 0.9865, UD-UAS: 0.9140, UD-LAS: 0.9195, EUD-UAS: 0.7968, EUD-LAS: 0.8012, Misc: 0.9982, SS: 0.9103, SC: 0.9312, Avg: 0.9167, batch_loss: 1.1704, loss: 1.1027 ||: 100%|#########9| 287/288 [00:37<00:00,  7.61it/s]
+2024-07-01 01:12:38,915 - INFO - tqdm - NullAccuracy: 0.9988, NullF1: 0.9072, Lemma: 0.9926, PosFeats: 0.9865, UD-UAS: 0.9139, UD-LAS: 0.9195, EUD-UAS: 0.7968, EUD-LAS: 0.8012, Misc: 0.9982, SS: 0.9103, SC: 0.9313, Avg: 0.9167, batch_loss: 1.2070, loss: 1.1031 ||: 100%|##########| 288/288 [00:37<00:00,  7.69it/s]
+2024-07-01 01:12:38,915 - INFO - tqdm - NullAccuracy: 0.9988, NullF1: 0.9072, Lemma: 0.9926, PosFeats: 0.9865, UD-UAS: 0.9139, UD-LAS: 0.9195, EUD-UAS: 0.7968, EUD-LAS: 0.8012, Misc: 0.9982, SS: 0.9103, SC: 0.9313, Avg: 0.9167, batch_loss: 1.2070, loss: 1.1031 ||: 100%|##########| 288/288 [00:37<00:00,  7.62it/s]
+2024-07-01 01:12:38,916 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 01:12:38,917 - INFO - tqdm - 0%|          | 0/73 [00:00<?, ?it/s]
+2024-07-01 01:12:44,980 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8696, Lemma: 0.9894, PosFeats: 0.9795, UD-UAS: 0.9302, UD-LAS: 0.9358, EUD-UAS: 0.8587, EUD-LAS: 0.8638, Misc: 0.9980, SS: 0.8894, SC: 0.9065, Avg: 0.9279, batch_loss: 0.3727, loss: 1.6588 ||: 100%|##########| 73/73 [00:06<00:00, 12.04it/s]
+2024-07-01 01:12:44,980 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.917  |     0.928
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.801  |     0.864
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.797  |     0.859
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.993  |     0.989
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.998  |     0.998
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.999  |     0.998
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.907  |     0.870
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.987  |     0.980
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.931  |     0.907
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.910  |     0.889
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.919  |     0.936
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.914  |     0.930
+2024-07-01 01:12:44,983 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  13760.942  |       N/A
+2024-07-01 01:12:44,984 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.103  |     1.659
+2024-07-01 01:12:44,984 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4688.586  |       N/A
+2024-07-01 01:12:49,928 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:48.812066
+2024-07-01 01:12:50,617 - INFO - allennlp.common.util - Metrics: {
+  "best_epoch": 7,
+  "peak_worker_0_memory_MB": 4688.5859375,
+  "peak_gpu_0_memory_MB": 13920.96923828125,
+  "training_duration": "0:07:42.648518",
   "epoch": 9,
-  "training_NullAccuracy": 0.998697459407344,
-  "training_NullF1": 0.9009708762168884,
-  "training_Lemma": 0.9926926853379466,
-  "training_PosFeats": 0.9864182875635814,
-  "training_UD-UAS": 0.9100419868258197,
-  "training_UD-LAS": 0.9167777702703597,
-  "training_EUD-UAS": 0.7931532199537782,
-  "training_EUD-LAS": 0.7977315424121794,
-  "training_Misc": 0.9984083930738572,
-  "training_SS": 0.9118316079872141,
-  "training_SC": 0.9326219734599545,
-  "training_Avg": 0.9155197185427433,
-  "training_loss": 1.1034587087730567,
-  "training_worker_0_memory_MB": 4688.1015625,
-  "training_gpu_0_memory_MB": 13762.9462890625,
-  "validation_NullAccuracy": 0.9980704293294742,
-  "validation_NullF1": 0.8566038012504578,
-  "validation_Lemma": 0.9900161971270014,
-  "validation_PosFeats": 0.9787576100993596,
-  "validation_UD-UAS": 0.9276552165481206,
-  "validation_UD-LAS": 0.932473965457888,
-  "validation_EUD-UAS": 0.8606671991752861,
-  "validation_EUD-LAS": 0.8650696309863961,
-  "validation_Misc": 0.9981024167830693,
-  "validation_SS": 0.8901510159976808,
-  "validation_SC": 0.9072819755949714,
-  "validation_Avg": 0.9277972475299747,
-  "validation_loss": 1.6939117825693555,
-  "best_validation_NullAccuracy": 0.9980704293294742,
-  "best_validation_NullF1": 0.8566038012504578,
-  "best_validation_Lemma": 0.9900161971270014,
-  "best_validation_PosFeats": 0.9787576100993596,
-  "best_validation_UD-UAS": 0.9276552165481206,
-  "best_validation_UD-LAS": 0.932473965457888,
-  "best_validation_EUD-UAS": 0.8606671991752861,
-  "best_validation_EUD-LAS": 0.8650696309863961,
-  "best_validation_Misc": 0.9981024167830693,
-  "best_validation_SS": 0.8901510159976808,
-  "best_validation_SC": 0.9072819755949714,
-  "best_validation_Avg": 0.9277972475299747,
-  "best_validation_loss": 1.6939117825693555
+  "training_NullAccuracy": 0.9987685203001732,
+  "training_NullF1": 0.9072464108467102,
+  "training_Lemma": 0.9926039275694976,
+  "training_PosFeats": 0.9865267366316841,
+  "training_UD-UAS": 0.913922907641408,
+  "training_UD-LAS": 0.9194818393506444,
+  "training_EUD-UAS": 0.7968428309591742,
+  "training_EUD-LAS": 0.801218871913721,
+  "training_Misc": 0.998167582875229,
+  "training_SS": 0.9102915209062136,
+  "training_SC": 0.9312610361485923,
+  "training_Avg": 0.916701917110685,
+  "training_loss": 1.1030541896406147,
+  "training_worker_0_memory_MB": 4688.5859375,
+  "training_gpu_0_memory_MB": 13760.94189453125,
+  "validation_NullAccuracy": 0.9982139313355824,
+  "validation_NullF1": 0.8695653080940247,
+  "validation_Lemma": 0.989425394603841,
+  "validation_PosFeats": 0.9795472086441986,
+  "validation_UD-UAS": 0.9301589140429909,
+  "validation_UD-LAS": 0.9358104537641311,
+  "validation_EUD-UAS": 0.8586681811229957,
+  "validation_EUD-LAS": 0.8638317960729032,
+  "validation_Misc": 0.9980190378183689,
+  "validation_SS": 0.8894262927707743,
+  "validation_SC": 0.906508875739645,
+  "validation_Avg": 0.9279329060644277,
+  "validation_loss": 1.6588139260468417,
+  "best_validation_NullAccuracy": 0.9982883508632665,
+  "best_validation_NullF1": 0.8729281425476074,
+  "best_validation_Lemma": 0.9883368322836482,
+  "best_validation_PosFeats": 0.9781579624388989,
+  "best_validation_UD-UAS": 0.9287624509330716,
+  "best_validation_UD-LAS": 0.9344450450653857,
+  "best_validation_EUD-UAS": 0.8679005781405796,
+  "best_validation_EUD-LAS": 0.8731606290234213,
+  "best_validation_Misc": 0.9979418574736301,
+  "best_validation_SS": 0.886030357602264,
+  "best_validation_SC": 0.9034988422948289,
+  "best_validation_Avg": 0.9286927283617477,
+  "best_validation_loss": 1.6413364859476482
 }
-2024-06-29 21:20:32,218 - INFO - allennlp.models.archival - archiving weights and vocabulary to xlm-roberta-base-en/finetuned/model.tar.gz
+2024-07-01 01:12:50,617 - INFO - allennlp.models.archival - archiving weights and vocabulary to serialization/finetuned/model.tar.gz