diff --git "a/finetuned/out.log" "b/finetuned/out.log"
--- "a/finetuned/out.log"
+++ "b/finetuned/out.log"
@@ -1,334 +1,334 @@
-2024-06-29 20:36:24,689 - INFO - allennlp.common.params - random_seed = 13370
-2024-06-29 20:36:24,689 - INFO - allennlp.common.params - numpy_seed = 1337
-2024-06-29 20:36:24,689 - INFO - allennlp.common.params - pytorch_seed = 133
-2024-06-29 20:36:24,690 - INFO - allennlp.common.checks - Pytorch version: 2.3.1+cu121
-2024-06-29 20:36:24,690 - INFO - allennlp.common.params - type = default
-2024-06-29 20:36:24,691 - INFO - allennlp.common.params - dataset_reader.type = compreno_ud_dataset_reader
-2024-06-29 20:36:24,691 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
-2024-06-29 20:36:24,691 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
-2024-06-29 20:36:24,691 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = distilbert-base-uncased
-2024-06-29 20:36:24,691 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
-2024-06-29 20:36:24,691 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = None
-2024-06-29 20:36:24,691 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
-2024-06-29 20:36:25,559 - INFO - allennlp.common.params - train_data_path = data/train.conllu
-2024-06-29 20:36:25,559 - INFO - allennlp.common.params - datasets_for_vocab_creation = None
-2024-06-29 20:36:25,559 - INFO - allennlp.common.params - validation_dataset_reader = None
-2024-06-29 20:36:25,559 - INFO - allennlp.common.params - validation_data_path = data/validation.conllu
-2024-06-29 20:36:25,559 - INFO - allennlp.common.params - test_data_path = None
-2024-06-29 20:36:25,559 - INFO - allennlp.common.params - evaluate_on_test = False
-2024-06-29 20:36:25,559 - INFO - allennlp.common.params - batch_weight_key = 
-2024-06-29 20:36:25,559 - INFO - allennlp.common.params - data_loader.type = multiprocess
-2024-06-29 20:36:25,559 - INFO - allennlp.common.params - data_loader.batch_size = 32
-2024-06-29 20:36:25,560 - INFO - allennlp.common.params - data_loader.drop_last = False
-2024-06-29 20:36:25,560 - INFO - allennlp.common.params - data_loader.shuffle = True
-2024-06-29 20:36:25,560 - INFO - allennlp.common.params - data_loader.batch_sampler = None
-2024-06-29 20:36:25,560 - INFO - allennlp.common.params - data_loader.batches_per_epoch = None
-2024-06-29 20:36:25,560 - INFO - allennlp.common.params - data_loader.num_workers = 0
-2024-06-29 20:36:25,560 - INFO - allennlp.common.params - data_loader.max_instances_in_memory = None
-2024-06-29 20:36:25,560 - INFO - allennlp.common.params - data_loader.start_method = fork
-2024-06-29 20:36:25,560 - INFO - allennlp.common.params - data_loader.cuda_device = None
-2024-06-29 20:36:25,560 - INFO - allennlp.common.params - data_loader.quiet = False
-2024-06-29 20:36:25,560 - INFO - allennlp.common.params - data_loader.collate_fn = <allennlp.data.data_loaders.data_collator.DefaultDataCollator object at 0x72f0e5f471c0>
-2024-06-29 20:36:25,560 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
-2024-06-29 20:36:29,066 - INFO - allennlp.common.params - validation_data_loader.type = multiprocess
-2024-06-29 20:36:29,066 - INFO - allennlp.common.params - validation_data_loader.batch_size = 32
-2024-06-29 20:36:29,066 - INFO - allennlp.common.params - validation_data_loader.drop_last = False
-2024-06-29 20:36:29,066 - INFO - allennlp.common.params - validation_data_loader.shuffle = False
-2024-06-29 20:36:29,066 - INFO - allennlp.common.params - validation_data_loader.batch_sampler = None
-2024-06-29 20:36:29,066 - INFO - allennlp.common.params - validation_data_loader.batches_per_epoch = None
-2024-06-29 20:36:29,066 - INFO - allennlp.common.params - validation_data_loader.num_workers = 0
-2024-06-29 20:36:29,067 - INFO - allennlp.common.params - validation_data_loader.max_instances_in_memory = None
-2024-06-29 20:36:29,067 - INFO - allennlp.common.params - validation_data_loader.start_method = fork
-2024-06-29 20:36:29,067 - INFO - allennlp.common.params - validation_data_loader.cuda_device = None
-2024-06-29 20:36:29,067 - INFO - allennlp.common.params - validation_data_loader.quiet = False
-2024-06-29 20:36:29,067 - INFO - allennlp.common.params - validation_data_loader.collate_fn = <allennlp.data.data_loaders.data_collator.DefaultDataCollator object at 0x72f0e5f471c0>
-2024-06-29 20:36:29,067 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
-2024-06-29 20:36:30,155 - INFO - allennlp.common.params - vocabulary.type = from_files
-2024-06-29 20:36:30,155 - INFO - allennlp.common.params - vocabulary.directory = distilbert/common_vocab.tar.gz
-2024-06-29 20:36:30,156 - INFO - allennlp.common.params - vocabulary.padding_token = @@PADDING@@
-2024-06-29 20:36:30,156 - INFO - allennlp.common.params - vocabulary.oov_token = @@UNKNOWN@@
-2024-06-29 20:36:30,156 - INFO - allennlp.data.vocabulary - Loading token dictionary from distilbert/common_vocab.tar.gz.
-2024-06-29 20:36:30,158 - INFO - allennlp.common.params - model.type = from_archive
-2024-06-29 20:36:30,158 - INFO - allennlp.common.params - model.archive_file = distilbert/pretrained/model.tar.gz
-2024-06-29 20:36:30,158 - INFO - allennlp.models.archival - loading archive file distilbert/pretrained/model.tar.gz
-2024-06-29 20:36:30,158 - INFO - allennlp.models.archival - extracting archive file distilbert/pretrained/model.tar.gz to temp dir /tmp/tmpwn6jyih0
-2024-06-29 20:36:31,588 - INFO - allennlp.common.params - dataset_reader.type = compreno_ud_dataset_reader
-2024-06-29 20:36:31,588 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
-2024-06-29 20:36:31,588 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
-2024-06-29 20:36:31,589 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = distilbert-base-uncased
-2024-06-29 20:36:31,589 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
-2024-06-29 20:36:31,589 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = None
-2024-06-29 20:36:31,589 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
-2024-06-29 20:36:31,589 - INFO - allennlp.common.params - dataset_reader.type = compreno_ud_dataset_reader
-2024-06-29 20:36:31,589 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
-2024-06-29 20:36:31,589 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
-2024-06-29 20:36:31,589 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = distilbert-base-uncased
-2024-06-29 20:36:31,589 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
-2024-06-29 20:36:31,589 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = None
-2024-06-29 20:36:31,590 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
-2024-06-29 20:36:31,590 - INFO - allennlp.common.params - vocabulary.type = from_files
-2024-06-29 20:36:31,590 - INFO - allennlp.data.vocabulary - Loading token dictionary from /tmp/tmpwn6jyih0/vocabulary.
-2024-06-29 20:36:31,591 - INFO - allennlp.common.params - model.type = morpho_syntax_semantic_parser
-2024-06-29 20:36:31,591 - INFO - allennlp.common.params - model.indexer.type = pretrained_transformer_mismatched
-2024-06-29 20:36:31,591 - INFO - allennlp.common.params - model.indexer.token_min_padding_length = 0
-2024-06-29 20:36:31,591 - INFO - allennlp.common.params - model.indexer.model_name = distilbert-base-uncased
-2024-06-29 20:36:31,591 - INFO - allennlp.common.params - model.indexer.namespace = tags
-2024-06-29 20:36:31,591 - INFO - allennlp.common.params - model.indexer.max_length = None
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.indexer.tokenizer_kwargs = None
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.type = pretrained_transformer_mismatched
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.model_name = distilbert-base-uncased
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.max_length = None
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.sub_module = None
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.train_parameters = True
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.last_layer_only = True
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.override_weights_file = None
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.override_weights_strip_prefix = None
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.load_weights = True
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.gradient_checkpointing = None
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.tokenizer_kwargs = None
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.transformer_kwargs = None
-2024-06-29 20:36:31,592 - INFO - allennlp.common.params - model.embedder.sub_token_mode = avg
-2024-06-29 20:36:31,864 - INFO - allennlp.common.params - model.lemma_rule_classifier.hid_dim = 512
-2024-06-29 20:36:31,864 - INFO - allennlp.common.params - model.lemma_rule_classifier.activation = relu
-2024-06-29 20:36:31,864 - INFO - allennlp.common.params - model.lemma_rule_classifier.dropout = 0.1
-2024-06-29 20:36:31,864 - INFO - allennlp.common.params - model.lemma_rule_classifier.dictionaries = []
-2024-06-29 20:36:31,865 - INFO - allennlp.common.params - model.lemma_rule_classifier.topk = None
-2024-06-29 20:36:31,866 - INFO - allennlp.common.params - model.pos_feats_classifier.hid_dim = 256
-2024-06-29 20:36:31,866 - INFO - allennlp.common.params - model.pos_feats_classifier.activation = relu
-2024-06-29 20:36:31,866 - INFO - allennlp.common.params - model.pos_feats_classifier.dropout = 0.1
-2024-06-29 20:36:31,868 - INFO - allennlp.common.params - model.depencency_classifier.hid_dim = 128
-2024-06-29 20:36:31,868 - INFO - allennlp.common.params - model.depencency_classifier.activation = relu
-2024-06-29 20:36:31,868 - INFO - allennlp.common.params - model.depencency_classifier.dropout = 0.1
-2024-06-29 20:36:31,906 - INFO - allennlp.common.params - model.misc_classifier.hid_dim = 128
-2024-06-29 20:36:31,907 - INFO - allennlp.common.params - model.misc_classifier.activation = relu
-2024-06-29 20:36:31,907 - INFO - allennlp.common.params - model.misc_classifier.dropout = 0.1
-2024-06-29 20:36:31,907 - INFO - allennlp.common.params - model.semslot_classifier.hid_dim = 1024
-2024-06-29 20:36:31,907 - INFO - allennlp.common.params - model.semslot_classifier.activation = relu
-2024-06-29 20:36:31,907 - INFO - allennlp.common.params - model.semslot_classifier.dropout = 0.1
-2024-06-29 20:36:31,912 - INFO - allennlp.common.params - model.semclass_classifier.hid_dim = 1024
-2024-06-29 20:36:31,912 - INFO - allennlp.common.params - model.semclass_classifier.activation = relu
-2024-06-29 20:36:31,912 - INFO - allennlp.common.params - model.semclass_classifier.dropout = 0.1
-2024-06-29 20:36:31,918 - INFO - allennlp.common.params - model.null_classifier.hid_dim = 512
-2024-06-29 20:36:31,918 - INFO - allennlp.common.params - model.null_classifier.activation = relu
-2024-06-29 20:36:31,918 - INFO - allennlp.common.params - model.null_classifier.dropout = 0.1
-2024-06-29 20:36:31,918 - INFO - allennlp.common.params - model.null_classifier.positive_class_weight = 1.0
-2024-06-29 20:36:32,115 - INFO - allennlp.models.archival - removing temporary unarchived model dir at /tmp/tmpwn6jyih0
-2024-06-29 20:36:36,489 - INFO - allennlp.common.params - trainer.type = gradient_descent
-2024-06-29 20:36:36,489 - INFO - allennlp.common.params - trainer.cuda_device = 0
-2024-06-29 20:36:36,489 - INFO - allennlp.common.params - trainer.distributed = False
-2024-06-29 20:36:36,489 - INFO - allennlp.common.params - trainer.world_size = 1
-2024-06-29 20:36:36,489 - INFO - allennlp.common.params - trainer.patience = None
-2024-06-29 20:36:36,489 - INFO - allennlp.common.params - trainer.validation_metric = +Avg
-2024-06-29 20:36:36,489 - INFO - allennlp.common.params - trainer.num_epochs = 10
-2024-06-29 20:36:36,489 - INFO - allennlp.common.params - trainer.grad_norm = False
-2024-06-29 20:36:36,489 - INFO - allennlp.common.params - trainer.grad_clipping = 5
-2024-06-29 20:36:36,489 - INFO - allennlp.common.params - trainer.num_gradient_accumulation_steps = 1
-2024-06-29 20:36:36,489 - INFO - allennlp.common.params - trainer.use_amp = False
-2024-06-29 20:36:36,490 - INFO - allennlp.common.params - trainer.no_grad = None
-2024-06-29 20:36:36,490 - INFO - allennlp.common.params - trainer.momentum_scheduler = None
-2024-06-29 20:36:36,490 - INFO - allennlp.common.params - trainer.moving_average = None
-2024-06-29 20:36:36,490 - INFO - allennlp.common.params - trainer.checkpointer = <allennlp.common.lazy.Lazy object at 0x72f0e0014100>
-2024-06-29 20:36:36,490 - INFO - allennlp.common.params - trainer.enable_default_callbacks = True
-2024-06-29 20:36:36,490 - INFO - allennlp.common.params - trainer.run_confidence_checks = True
-2024-06-29 20:36:36,490 - INFO - allennlp.common.params - trainer.grad_scaling = True
-2024-06-29 20:36:36,597 - INFO - allennlp.common.params - trainer.optimizer.type = adam
-2024-06-29 20:36:36,597 - INFO - allennlp.common.params - trainer.optimizer.lr = 0.01
-2024-06-29 20:36:36,598 - INFO - allennlp.common.params - trainer.optimizer.betas = (0.9, 0.999)
-2024-06-29 20:36:36,598 - INFO - allennlp.common.params - trainer.optimizer.eps = 1e-08
-2024-06-29 20:36:36,598 - INFO - allennlp.common.params - trainer.optimizer.weight_decay = 0.0
-2024-06-29 20:36:36,598 - INFO - allennlp.common.params - trainer.optimizer.amsgrad = False
-2024-06-29 20:36:36,598 - INFO - allennlp.training.optimizers - Done constructing parameter groups.
-2024-06-29 20:36:36,599 - INFO - allennlp.training.optimizers - Group 0: ['embedder._matched_embedder.transformer_model.transformer.layer.3.sa_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.q_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.v_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.k_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.k_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin1.weight', 'embedder._matched_embedder.transformer_model.embeddings.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.q_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.k_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.v_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.out_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin2.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.output_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.q_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.sa_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.sa_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.out_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.q_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.q_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin2.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.output_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin2.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin1.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.k_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.q_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin2.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.q_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.v_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin1.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.v_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.2.output_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.out_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.out_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.output_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.output_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.q_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.sa_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.output_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.out_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.sa_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin2.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.q_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.v_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin2.weight', 'embedder._matched_embedder.transformer_model.embeddings.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.out_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.k_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.q_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.k_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.out_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.v_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin1.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.output_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.k_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.k_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.sa_layer_norm.bias', 'embedder._matched_embedder.transformer_model.embeddings.word_embeddings.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin2.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.v_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.out_lin.bias', 'embedder._matched_embedder.transformer_model.embeddings.position_embeddings.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin1.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.sa_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin1.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.output_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.out_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin1.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.v_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin2.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin1.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin2.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin1.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.sa_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.k_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.v_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.q_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin1.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.out_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.k_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.sa_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin2.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.output_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.q_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.out_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.output_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin1.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.output_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.v_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin2.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.v_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin2.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.sa_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.k_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.sa_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.out_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.v_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin1.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.sa_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.output_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.k_lin.weight'], {}
-2024-06-29 20:36:36,599 - INFO - allennlp.training.optimizers - Group 1: ['pos_feats_classifier.classifier.4.weight', 'dependency_classifier.rel_head_mlp.1.weight', 'lemma_rule_classifier.classifier.1.bias', 'semslot_classifier.classifier.4.weight', 'dependency_classifier.rel_attention_eud._bias', 'null_classifier.classifier.1.weight', 'semslot_classifier.classifier.4.bias', 'lemma_rule_classifier.classifier.4.bias', 'dependency_classifier.arc_attention_ud._weight_matrix', 'dependency_classifier.rel_head_mlp.1.bias', 'semslot_classifier.classifier.1.weight', 'dependency_classifier.rel_dep_mlp.1.bias', 'semclass_classifier.classifier.4.bias', 'semclass_classifier.classifier.1.weight', 'dependency_classifier.arc_attention_ud._bias', 'null_classifier.classifier.4.weight', 'misc_classifier.classifier.4.bias', 'dependency_classifier.arc_dep_mlp.1.weight', 'pos_feats_classifier.classifier.1.weight', 'dependency_classifier.arc_head_mlp.1.weight', 'dependency_classifier.arc_attention_eud._weight_matrix', 'null_classifier.classifier.1.bias', 'dependency_classifier.arc_dep_mlp.1.bias', 'dependency_classifier.rel_attention_ud._weight_matrix', 'null_classifier.classifier.4.bias', 'semslot_classifier.classifier.1.bias', 'semclass_classifier.classifier.1.bias', 'pos_feats_classifier.classifier.1.bias', 'pos_feats_classifier.classifier.4.bias', 'lemma_rule_classifier.classifier.4.weight', 'dependency_classifier.rel_attention_eud._weight_matrix', 'misc_classifier.classifier.1.bias', 'dependency_classifier.arc_attention_eud._bias', 'lemma_rule_classifier.classifier.1.weight', 'misc_classifier.classifier.1.weight', 'misc_classifier.classifier.4.weight', 'dependency_classifier.rel_attention_ud._bias', 'dependency_classifier.rel_dep_mlp.1.weight', 'semclass_classifier.classifier.4.weight', 'dependency_classifier.arc_head_mlp.1.bias'], {}
-2024-06-29 20:36:36,599 - INFO - allennlp.training.optimizers - Group 2: [], {}
-2024-06-29 20:36:36,599 - INFO - allennlp.training.optimizers - Number of trainable parameters: 78750350
-2024-06-29 20:36:36,599 - INFO - allennlp.common.util - The following parameters are Frozen (without gradient):
-2024-06-29 20:36:36,599 - INFO - allennlp.common.util - The following parameters are Tunable (with gradient):
-2024-06-29 20:36:36,599 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.word_embeddings.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.position_embeddings.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.LayerNorm.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.LayerNorm.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.q_lin.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.q_lin.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.k_lin.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.k_lin.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.v_lin.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.v_lin.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.out_lin.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.out_lin.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.sa_layer_norm.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.sa_layer_norm.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin1.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin1.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin2.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin2.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.output_layer_norm.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.output_layer_norm.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.q_lin.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.q_lin.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.k_lin.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.k_lin.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.v_lin.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.v_lin.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.out_lin.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.out_lin.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.sa_layer_norm.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.sa_layer_norm.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin1.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin1.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin2.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin2.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.output_layer_norm.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.output_layer_norm.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.q_lin.weight
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.q_lin.bias
-2024-06-29 20:36:36,600 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.k_lin.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.k_lin.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.v_lin.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.v_lin.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.out_lin.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.out_lin.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.sa_layer_norm.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.sa_layer_norm.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin1.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin1.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin2.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin2.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.output_layer_norm.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.output_layer_norm.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.q_lin.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.q_lin.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.k_lin.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.k_lin.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.v_lin.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.v_lin.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.out_lin.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.out_lin.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.sa_layer_norm.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.sa_layer_norm.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin1.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin1.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin2.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin2.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.output_layer_norm.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.output_layer_norm.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.q_lin.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.q_lin.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.k_lin.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.k_lin.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.v_lin.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.v_lin.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.out_lin.weight
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.out_lin.bias
-2024-06-29 20:36:36,601 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.sa_layer_norm.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.sa_layer_norm.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin1.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin1.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin2.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin2.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.output_layer_norm.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.output_layer_norm.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.q_lin.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.q_lin.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.k_lin.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.k_lin.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.v_lin.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.v_lin.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.out_lin.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.out_lin.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.sa_layer_norm.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.sa_layer_norm.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin1.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin1.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin2.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin2.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.output_layer_norm.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.output_layer_norm.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.1.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.1.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.4.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.4.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - pos_feats_classifier.classifier.1.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - pos_feats_classifier.classifier.1.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - pos_feats_classifier.classifier.4.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - pos_feats_classifier.classifier.4.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - dependency_classifier.arc_dep_mlp.1.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - dependency_classifier.arc_dep_mlp.1.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - dependency_classifier.arc_head_mlp.1.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - dependency_classifier.arc_head_mlp.1.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - dependency_classifier.rel_dep_mlp.1.weight
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - dependency_classifier.rel_dep_mlp.1.bias
-2024-06-29 20:36:36,602 - INFO - allennlp.common.util - dependency_classifier.rel_head_mlp.1.weight
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - dependency_classifier.rel_head_mlp.1.bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - dependency_classifier.arc_attention_ud._weight_matrix
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - dependency_classifier.arc_attention_ud._bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - dependency_classifier.rel_attention_ud._weight_matrix
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - dependency_classifier.rel_attention_ud._bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - dependency_classifier.arc_attention_eud._weight_matrix
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - dependency_classifier.arc_attention_eud._bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - dependency_classifier.rel_attention_eud._weight_matrix
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - dependency_classifier.rel_attention_eud._bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - misc_classifier.classifier.1.weight
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - misc_classifier.classifier.1.bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - misc_classifier.classifier.4.weight
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - misc_classifier.classifier.4.bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - semslot_classifier.classifier.1.weight
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - semslot_classifier.classifier.1.bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - semslot_classifier.classifier.4.weight
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - semslot_classifier.classifier.4.bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - semclass_classifier.classifier.1.weight
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - semclass_classifier.classifier.1.bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - semclass_classifier.classifier.4.weight
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - semclass_classifier.classifier.4.bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - null_classifier.classifier.1.weight
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - null_classifier.classifier.1.bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - null_classifier.classifier.4.weight
-2024-06-29 20:36:36,603 - INFO - allennlp.common.util - null_classifier.classifier.4.bias
-2024-06-29 20:36:36,603 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.type = slanted_triangular
-2024-06-29 20:36:36,603 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.cut_frac = 0
-2024-06-29 20:36:36,603 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.ratio = 32
-2024-06-29 20:36:36,603 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.last_epoch = -1
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.gradual_unfreezing = True
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.discriminative_fine_tuning = True
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.decay_factor = 0.01
-2024-06-29 20:36:36,604 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing. Training only the top 1 layers.
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - type = default
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - save_completed_epochs = True
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - save_every_num_seconds = None
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - save_every_num_batches = None
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - keep_most_recent_by_count = 2
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - keep_most_recent_by_age = None
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - trainer.callbacks.0.type = tensorboard
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - trainer.callbacks.0.summary_interval = 100
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - trainer.callbacks.0.distribution_interval = None
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - trainer.callbacks.0.batch_size_interval = None
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - trainer.callbacks.0.should_log_parameter_statistics = False
-2024-06-29 20:36:36,604 - INFO - allennlp.common.params - trainer.callbacks.0.should_log_learning_rate = True
-2024-06-29 20:36:36,606 - WARNING - allennlp.training.gradient_descent_trainer - You provided a validation dataset but patience was set to None, meaning that early stopping is disabled
-2024-06-29 20:36:36,607 - INFO - allennlp.training.gradient_descent_trainer - Beginning training.
-2024-06-29 20:36:36,607 - INFO - allennlp.training.gradient_descent_trainer - Epoch 0/9
-2024-06-29 20:36:36,607 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 1.8G
-2024-06-29 20:36:36,608 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 302M
-2024-06-29 20:36:36,608 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 20:36:36,608 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
-2024-06-29 20:36:36,951 - INFO - allennlp.training.callbacks.console_logger - Batch inputs
-2024-06-29 20:36:36,952 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/token_ids (Shape: 32 x 57)
-tensor([[  101,  2057,  2024,  ...,     0,     0,     0],
-        [  101,  6661,  1999,  ...,     0,     0,     0],
-        [  101,  2429,  2000,  ...,     0,     0,     0],
+2024-07-01 00:22:12,332 - INFO - allennlp.common.params - random_seed = 13370
+2024-07-01 00:22:12,332 - INFO - allennlp.common.params - numpy_seed = 1337
+2024-07-01 00:22:12,332 - INFO - allennlp.common.params - pytorch_seed = 133
+2024-07-01 00:22:12,334 - INFO - allennlp.common.checks - Pytorch version: 2.3.1+cu121
+2024-07-01 00:22:12,334 - INFO - allennlp.common.params - type = default
+2024-07-01 00:22:12,334 - INFO - allennlp.common.params - dataset_reader.type = compreno_ud_dataset_reader
+2024-07-01 00:22:12,334 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
+2024-07-01 00:22:12,334 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
+2024-07-01 00:22:12,334 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = distilbert-base-uncased
+2024-07-01 00:22:12,334 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
+2024-07-01 00:22:12,334 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = None
+2024-07-01 00:22:12,334 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
+2024-07-01 00:22:12,990 - INFO - allennlp.common.params - train_data_path = data/train.conllu
+2024-07-01 00:22:12,990 - INFO - allennlp.common.params - datasets_for_vocab_creation = None
+2024-07-01 00:22:12,990 - INFO - allennlp.common.params - validation_dataset_reader = None
+2024-07-01 00:22:12,990 - INFO - allennlp.common.params - validation_data_path = data/validation.conllu
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - test_data_path = None
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - evaluate_on_test = False
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - batch_weight_key = 
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - data_loader.type = multiprocess
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - data_loader.batch_size = 32
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - data_loader.drop_last = False
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - data_loader.shuffle = True
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - data_loader.batch_sampler = None
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - data_loader.batches_per_epoch = None
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - data_loader.num_workers = 0
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - data_loader.max_instances_in_memory = None
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - data_loader.start_method = fork
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - data_loader.cuda_device = None
+2024-07-01 00:22:12,991 - INFO - allennlp.common.params - data_loader.quiet = False
+2024-07-01 00:22:12,992 - INFO - allennlp.common.params - data_loader.collate_fn = <allennlp.data.data_loaders.data_collator.DefaultDataCollator object at 0x774972140d30>
+2024-07-01 00:22:12,992 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
+2024-07-01 00:22:16,347 - INFO - allennlp.common.params - validation_data_loader.type = multiprocess
+2024-07-01 00:22:16,347 - INFO - allennlp.common.params - validation_data_loader.batch_size = 32
+2024-07-01 00:22:16,348 - INFO - allennlp.common.params - validation_data_loader.drop_last = False
+2024-07-01 00:22:16,348 - INFO - allennlp.common.params - validation_data_loader.shuffle = False
+2024-07-01 00:22:16,348 - INFO - allennlp.common.params - validation_data_loader.batch_sampler = None
+2024-07-01 00:22:16,348 - INFO - allennlp.common.params - validation_data_loader.batches_per_epoch = None
+2024-07-01 00:22:16,348 - INFO - allennlp.common.params - validation_data_loader.num_workers = 0
+2024-07-01 00:22:16,348 - INFO - allennlp.common.params - validation_data_loader.max_instances_in_memory = None
+2024-07-01 00:22:16,348 - INFO - allennlp.common.params - validation_data_loader.start_method = fork
+2024-07-01 00:22:16,348 - INFO - allennlp.common.params - validation_data_loader.cuda_device = None
+2024-07-01 00:22:16,348 - INFO - allennlp.common.params - validation_data_loader.quiet = False
+2024-07-01 00:22:16,348 - INFO - allennlp.common.params - validation_data_loader.collate_fn = <allennlp.data.data_loaders.data_collator.DefaultDataCollator object at 0x774972140d30>
+2024-07-01 00:22:16,348 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
+2024-07-01 00:22:17,450 - INFO - allennlp.common.params - vocabulary.type = from_files
+2024-07-01 00:22:17,450 - INFO - allennlp.common.params - vocabulary.directory = serialization/distilbert/common_vocab.tar.gz
+2024-07-01 00:22:17,450 - INFO - allennlp.common.params - vocabulary.padding_token = @@PADDING@@
+2024-07-01 00:22:17,450 - INFO - allennlp.common.params - vocabulary.oov_token = @@UNKNOWN@@
+2024-07-01 00:22:17,450 - INFO - allennlp.data.vocabulary - Loading token dictionary from serialization/distilbert/common_vocab.tar.gz.
+2024-07-01 00:22:17,452 - INFO - allennlp.common.params - model.type = from_archive
+2024-07-01 00:22:17,452 - INFO - allennlp.common.params - model.archive_file = serialization/distilbert/pretrained/model.tar.gz
+2024-07-01 00:22:17,452 - INFO - allennlp.models.archival - loading archive file serialization/distilbert/pretrained/model.tar.gz
+2024-07-01 00:22:17,452 - INFO - allennlp.models.archival - extracting archive file serialization/distilbert/pretrained/model.tar.gz to temp dir /tmp/tmp1_88nyor
+2024-07-01 00:22:18,863 - INFO - allennlp.common.params - dataset_reader.type = compreno_ud_dataset_reader
+2024-07-01 00:22:18,863 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
+2024-07-01 00:22:18,863 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
+2024-07-01 00:22:18,863 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = distilbert-base-uncased
+2024-07-01 00:22:18,863 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
+2024-07-01 00:22:18,863 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = None
+2024-07-01 00:22:18,863 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
+2024-07-01 00:22:18,864 - INFO - allennlp.common.params - dataset_reader.type = compreno_ud_dataset_reader
+2024-07-01 00:22:18,864 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
+2024-07-01 00:22:18,864 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
+2024-07-01 00:22:18,864 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = distilbert-base-uncased
+2024-07-01 00:22:18,864 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
+2024-07-01 00:22:18,864 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = None
+2024-07-01 00:22:18,864 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
+2024-07-01 00:22:18,864 - INFO - allennlp.common.params - vocabulary.type = from_files
+2024-07-01 00:22:18,864 - INFO - allennlp.data.vocabulary - Loading token dictionary from /tmp/tmp1_88nyor/vocabulary.
+2024-07-01 00:22:18,865 - INFO - allennlp.common.params - model.type = morpho_syntax_semantic_parser
+2024-07-01 00:22:18,866 - INFO - allennlp.common.params - model.indexer.type = pretrained_transformer_mismatched
+2024-07-01 00:22:18,866 - INFO - allennlp.common.params - model.indexer.token_min_padding_length = 0
+2024-07-01 00:22:18,866 - INFO - allennlp.common.params - model.indexer.model_name = distilbert-base-uncased
+2024-07-01 00:22:18,866 - INFO - allennlp.common.params - model.indexer.namespace = tags
+2024-07-01 00:22:18,866 - INFO - allennlp.common.params - model.indexer.max_length = None
+2024-07-01 00:22:18,866 - INFO - allennlp.common.params - model.indexer.tokenizer_kwargs = None
+2024-07-01 00:22:18,866 - INFO - allennlp.common.params - model.embedder.type = pretrained_transformer_mismatched
+2024-07-01 00:22:18,866 - INFO - allennlp.common.params - model.embedder.model_name = distilbert-base-uncased
+2024-07-01 00:22:18,866 - INFO - allennlp.common.params - model.embedder.max_length = None
+2024-07-01 00:22:18,866 - INFO - allennlp.common.params - model.embedder.sub_module = None
+2024-07-01 00:22:18,867 - INFO - allennlp.common.params - model.embedder.train_parameters = True
+2024-07-01 00:22:18,867 - INFO - allennlp.common.params - model.embedder.last_layer_only = True
+2024-07-01 00:22:18,867 - INFO - allennlp.common.params - model.embedder.override_weights_file = None
+2024-07-01 00:22:18,867 - INFO - allennlp.common.params - model.embedder.override_weights_strip_prefix = None
+2024-07-01 00:22:18,867 - INFO - allennlp.common.params - model.embedder.load_weights = True
+2024-07-01 00:22:18,867 - INFO - allennlp.common.params - model.embedder.gradient_checkpointing = None
+2024-07-01 00:22:18,867 - INFO - allennlp.common.params - model.embedder.tokenizer_kwargs = None
+2024-07-01 00:22:18,867 - INFO - allennlp.common.params - model.embedder.transformer_kwargs = None
+2024-07-01 00:22:18,867 - INFO - allennlp.common.params - model.embedder.sub_token_mode = avg
+2024-07-01 00:22:19,147 - INFO - allennlp.common.params - model.lemma_rule_classifier.hid_dim = 512
+2024-07-01 00:22:19,147 - INFO - allennlp.common.params - model.lemma_rule_classifier.activation = relu
+2024-07-01 00:22:19,147 - INFO - allennlp.common.params - model.lemma_rule_classifier.dropout = 0.1
+2024-07-01 00:22:19,147 - INFO - allennlp.common.params - model.lemma_rule_classifier.dictionaries = []
+2024-07-01 00:22:19,147 - INFO - allennlp.common.params - model.lemma_rule_classifier.topk = None
+2024-07-01 00:22:19,149 - INFO - allennlp.common.params - model.pos_feats_classifier.hid_dim = 256
+2024-07-01 00:22:19,149 - INFO - allennlp.common.params - model.pos_feats_classifier.activation = relu
+2024-07-01 00:22:19,149 - INFO - allennlp.common.params - model.pos_feats_classifier.dropout = 0.1
+2024-07-01 00:22:19,150 - INFO - allennlp.common.params - model.depencency_classifier.hid_dim = 128
+2024-07-01 00:22:19,150 - INFO - allennlp.common.params - model.depencency_classifier.activation = relu
+2024-07-01 00:22:19,150 - INFO - allennlp.common.params - model.depencency_classifier.dropout = 0.1
+2024-07-01 00:22:19,189 - INFO - allennlp.common.params - model.misc_classifier.hid_dim = 128
+2024-07-01 00:22:19,189 - INFO - allennlp.common.params - model.misc_classifier.activation = relu
+2024-07-01 00:22:19,189 - INFO - allennlp.common.params - model.misc_classifier.dropout = 0.1
+2024-07-01 00:22:19,189 - INFO - allennlp.common.params - model.semslot_classifier.hid_dim = 1024
+2024-07-01 00:22:19,189 - INFO - allennlp.common.params - model.semslot_classifier.activation = relu
+2024-07-01 00:22:19,190 - INFO - allennlp.common.params - model.semslot_classifier.dropout = 0.1
+2024-07-01 00:22:19,194 - INFO - allennlp.common.params - model.semclass_classifier.hid_dim = 1024
+2024-07-01 00:22:19,194 - INFO - allennlp.common.params - model.semclass_classifier.activation = relu
+2024-07-01 00:22:19,194 - INFO - allennlp.common.params - model.semclass_classifier.dropout = 0.1
+2024-07-01 00:22:19,200 - INFO - allennlp.common.params - model.null_classifier.hid_dim = 512
+2024-07-01 00:22:19,200 - INFO - allennlp.common.params - model.null_classifier.activation = relu
+2024-07-01 00:22:19,200 - INFO - allennlp.common.params - model.null_classifier.dropout = 0.1
+2024-07-01 00:22:19,200 - INFO - allennlp.common.params - model.null_classifier.positive_class_weight = 1.0
+2024-07-01 00:22:19,410 - INFO - allennlp.models.archival - removing temporary unarchived model dir at /tmp/tmp1_88nyor
+2024-07-01 00:22:23,694 - INFO - allennlp.common.params - trainer.type = gradient_descent
+2024-07-01 00:22:23,694 - INFO - allennlp.common.params - trainer.cuda_device = 0
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.distributed = False
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.world_size = 1
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.patience = None
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.validation_metric = +Avg
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.num_epochs = 10
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.grad_norm = False
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.grad_clipping = 5
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.num_gradient_accumulation_steps = 1
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.use_amp = False
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.no_grad = None
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.momentum_scheduler = None
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.moving_average = None
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.checkpointer = <allennlp.common.lazy.Lazy object at 0x77496c20cc40>
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.enable_default_callbacks = True
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.run_confidence_checks = True
+2024-07-01 00:22:23,695 - INFO - allennlp.common.params - trainer.grad_scaling = True
+2024-07-01 00:22:23,804 - INFO - allennlp.common.params - trainer.optimizer.type = adam
+2024-07-01 00:22:23,805 - INFO - allennlp.common.params - trainer.optimizer.lr = 0.01
+2024-07-01 00:22:23,805 - INFO - allennlp.common.params - trainer.optimizer.betas = (0.9, 0.999)
+2024-07-01 00:22:23,805 - INFO - allennlp.common.params - trainer.optimizer.eps = 1e-08
+2024-07-01 00:22:23,805 - INFO - allennlp.common.params - trainer.optimizer.weight_decay = 0.0
+2024-07-01 00:22:23,805 - INFO - allennlp.common.params - trainer.optimizer.amsgrad = False
+2024-07-01 00:22:23,806 - INFO - allennlp.training.optimizers - Done constructing parameter groups.
+2024-07-01 00:22:23,806 - INFO - allennlp.training.optimizers - Group 0: ['embedder._matched_embedder.transformer_model.transformer.layer.5.attention.k_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.v_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.out_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.k_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin1.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin2.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.q_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.q_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin2.weight', 'embedder._matched_embedder.transformer_model.embeddings.position_embeddings.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.k_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.k_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.k_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.k_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.sa_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.out_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.out_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin1.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin1.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.sa_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.q_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.q_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin1.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.output_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.out_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin1.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.v_lin.weight', 'embedder._matched_embedder.transformer_model.embeddings.LayerNorm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.v_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.2.sa_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.v_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.sa_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.sa_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.v_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin1.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.sa_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin2.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.output_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.k_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin2.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.v_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.q_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.output_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin2.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.q_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.k_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.sa_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.output_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.q_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.sa_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin2.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin1.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin2.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.out_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.v_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin1.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.q_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin2.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin1.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.k_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.v_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.output_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin2.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.output_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin2.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.out_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.q_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.sa_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.sa_layer_norm.weight', 'embedder._matched_embedder.transformer_model.embeddings.LayerNorm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.attention.v_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.3.attention.k_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.out_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.q_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.output_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.q_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.out_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.out_lin.weight', 'embedder._matched_embedder.transformer_model.embeddings.word_embeddings.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.output_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.output_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin2.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.out_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.v_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.q_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.attention.out_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.output_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.output_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin1.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.v_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.output_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin1.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.k_lin.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.2.attention.v_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.2.sa_layer_norm.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin2.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.0.attention.out_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.4.attention.k_lin.bias', 'embedder._matched_embedder.transformer_model.transformer.layer.1.sa_layer_norm.weight', 'embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin1.weight'], {}
+2024-07-01 00:22:23,806 - INFO - allennlp.training.optimizers - Group 1: ['pos_feats_classifier.classifier.4.bias', 'semclass_classifier.classifier.1.bias', 'dependency_classifier.arc_dep_mlp.1.weight', 'dependency_classifier.rel_attention_eud._bias', 'misc_classifier.classifier.4.weight', 'misc_classifier.classifier.1.weight', 'dependency_classifier.arc_head_mlp.1.weight', 'semslot_classifier.classifier.1.bias', 'dependency_classifier.arc_head_mlp.1.bias', 'dependency_classifier.arc_attention_eud._bias', 'dependency_classifier.arc_attention_ud._weight_matrix', 'dependency_classifier.rel_dep_mlp.1.bias', 'misc_classifier.classifier.4.bias', 'null_classifier.classifier.4.weight', 'semslot_classifier.classifier.4.weight', 'pos_feats_classifier.classifier.1.weight', 'lemma_rule_classifier.classifier.4.bias', 'dependency_classifier.rel_attention_eud._weight_matrix', 'semslot_classifier.classifier.1.weight', 'pos_feats_classifier.classifier.4.weight', 'null_classifier.classifier.1.bias', 'dependency_classifier.arc_attention_ud._bias', 'semslot_classifier.classifier.4.bias', 'semclass_classifier.classifier.4.weight', 'dependency_classifier.arc_dep_mlp.1.bias', 'dependency_classifier.rel_attention_ud._weight_matrix', 'null_classifier.classifier.1.weight', 'lemma_rule_classifier.classifier.1.bias', 'dependency_classifier.rel_head_mlp.1.weight', 'dependency_classifier.arc_attention_eud._weight_matrix', 'pos_feats_classifier.classifier.1.bias', 'dependency_classifier.rel_attention_ud._bias', 'semclass_classifier.classifier.1.weight', 'misc_classifier.classifier.1.bias', 'semclass_classifier.classifier.4.bias', 'lemma_rule_classifier.classifier.4.weight', 'dependency_classifier.rel_dep_mlp.1.weight', 'null_classifier.classifier.4.bias', 'lemma_rule_classifier.classifier.1.weight', 'dependency_classifier.rel_head_mlp.1.bias'], {}
+2024-07-01 00:22:23,806 - INFO - allennlp.training.optimizers - Group 2: [], {}
+2024-07-01 00:22:23,806 - INFO - allennlp.training.optimizers - Number of trainable parameters: 78722675
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - The following parameters are Frozen (without gradient):
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - The following parameters are Tunable (with gradient):
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.word_embeddings.weight
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.position_embeddings.weight
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.LayerNorm.weight
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.embeddings.LayerNorm.bias
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.q_lin.weight
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.q_lin.bias
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.k_lin.weight
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.k_lin.bias
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.v_lin.weight
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.v_lin.bias
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.out_lin.weight
+2024-07-01 00:22:23,807 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.attention.out_lin.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.sa_layer_norm.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.sa_layer_norm.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin1.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin1.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin2.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.ffn.lin2.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.output_layer_norm.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.0.output_layer_norm.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.q_lin.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.q_lin.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.k_lin.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.k_lin.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.v_lin.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.v_lin.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.out_lin.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.attention.out_lin.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.sa_layer_norm.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.sa_layer_norm.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin1.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin1.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin2.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.ffn.lin2.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.output_layer_norm.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.1.output_layer_norm.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.q_lin.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.q_lin.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.k_lin.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.k_lin.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.v_lin.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.v_lin.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.out_lin.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.attention.out_lin.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.sa_layer_norm.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.sa_layer_norm.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin1.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin1.bias
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin2.weight
+2024-07-01 00:22:23,808 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.ffn.lin2.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.output_layer_norm.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.2.output_layer_norm.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.q_lin.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.q_lin.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.k_lin.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.k_lin.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.v_lin.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.v_lin.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.out_lin.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.attention.out_lin.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.sa_layer_norm.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.sa_layer_norm.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin1.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin1.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin2.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.ffn.lin2.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.output_layer_norm.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.3.output_layer_norm.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.q_lin.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.q_lin.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.k_lin.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.k_lin.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.v_lin.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.v_lin.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.out_lin.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.attention.out_lin.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.sa_layer_norm.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.sa_layer_norm.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin1.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin1.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin2.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.ffn.lin2.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.output_layer_norm.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.4.output_layer_norm.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.q_lin.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.q_lin.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.k_lin.weight
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.k_lin.bias
+2024-07-01 00:22:23,809 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.v_lin.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.v_lin.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.out_lin.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.attention.out_lin.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.sa_layer_norm.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.sa_layer_norm.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin1.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin1.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin2.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.ffn.lin2.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.output_layer_norm.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - embedder._matched_embedder.transformer_model.transformer.layer.5.output_layer_norm.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.1.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.1.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.4.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - lemma_rule_classifier.classifier.4.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - pos_feats_classifier.classifier.1.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - pos_feats_classifier.classifier.1.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - pos_feats_classifier.classifier.4.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - pos_feats_classifier.classifier.4.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.arc_dep_mlp.1.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.arc_dep_mlp.1.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.arc_head_mlp.1.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.arc_head_mlp.1.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.rel_dep_mlp.1.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.rel_dep_mlp.1.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.rel_head_mlp.1.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.rel_head_mlp.1.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.arc_attention_ud._weight_matrix
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.arc_attention_ud._bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.rel_attention_ud._weight_matrix
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.rel_attention_ud._bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.arc_attention_eud._weight_matrix
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.arc_attention_eud._bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.rel_attention_eud._weight_matrix
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - dependency_classifier.rel_attention_eud._bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - misc_classifier.classifier.1.weight
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - misc_classifier.classifier.1.bias
+2024-07-01 00:22:23,810 - INFO - allennlp.common.util - misc_classifier.classifier.4.weight
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - misc_classifier.classifier.4.bias
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - semslot_classifier.classifier.1.weight
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - semslot_classifier.classifier.1.bias
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - semslot_classifier.classifier.4.weight
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - semslot_classifier.classifier.4.bias
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - semclass_classifier.classifier.1.weight
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - semclass_classifier.classifier.1.bias
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - semclass_classifier.classifier.4.weight
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - semclass_classifier.classifier.4.bias
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - null_classifier.classifier.1.weight
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - null_classifier.classifier.1.bias
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - null_classifier.classifier.4.weight
+2024-07-01 00:22:23,811 - INFO - allennlp.common.util - null_classifier.classifier.4.bias
+2024-07-01 00:22:23,811 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.type = slanted_triangular
+2024-07-01 00:22:23,811 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.cut_frac = 0
+2024-07-01 00:22:23,811 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.ratio = 32
+2024-07-01 00:22:23,811 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.last_epoch = -1
+2024-07-01 00:22:23,811 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.gradual_unfreezing = True
+2024-07-01 00:22:23,811 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.discriminative_fine_tuning = True
+2024-07-01 00:22:23,811 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.decay_factor = 0.01
+2024-07-01 00:22:23,811 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing. Training only the top 1 layers.
+2024-07-01 00:22:23,811 - INFO - allennlp.common.params - type = default
+2024-07-01 00:22:23,811 - INFO - allennlp.common.params - save_completed_epochs = True
+2024-07-01 00:22:23,812 - INFO - allennlp.common.params - save_every_num_seconds = None
+2024-07-01 00:22:23,812 - INFO - allennlp.common.params - save_every_num_batches = None
+2024-07-01 00:22:23,812 - INFO - allennlp.common.params - keep_most_recent_by_count = 2
+2024-07-01 00:22:23,812 - INFO - allennlp.common.params - keep_most_recent_by_age = None
+2024-07-01 00:22:23,812 - INFO - allennlp.common.params - trainer.callbacks.0.type = tensorboard
+2024-07-01 00:22:23,812 - INFO - allennlp.common.params - trainer.callbacks.0.summary_interval = 100
+2024-07-01 00:22:23,812 - INFO - allennlp.common.params - trainer.callbacks.0.distribution_interval = None
+2024-07-01 00:22:23,812 - INFO - allennlp.common.params - trainer.callbacks.0.batch_size_interval = None
+2024-07-01 00:22:23,812 - INFO - allennlp.common.params - trainer.callbacks.0.should_log_parameter_statistics = False
+2024-07-01 00:22:23,812 - INFO - allennlp.common.params - trainer.callbacks.0.should_log_learning_rate = True
+2024-07-01 00:22:23,813 - WARNING - allennlp.training.gradient_descent_trainer - You provided a validation dataset but patience was set to None, meaning that early stopping is disabled
+2024-07-01 00:22:23,814 - INFO - allennlp.training.gradient_descent_trainer - Beginning training.
+2024-07-01 00:22:23,814 - INFO - allennlp.training.gradient_descent_trainer - Epoch 0/9
+2024-07-01 00:22:23,814 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 1.8G
+2024-07-01 00:22:23,815 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 302M
+2024-07-01 00:22:23,815 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 00:22:23,815 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
+2024-07-01 00:22:24,147 - INFO - allennlp.training.callbacks.console_logger - Batch inputs
+2024-07-01 00:22:24,147 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/token_ids (Shape: 32 x 47)
+tensor([[  101,  4116, 10503,  ...,     0,     0,     0],
+        [  101,  1999,  8001,  ...,  1000,  1012,   102],
+        [  101,  2664,  3725,  ...,     0,     0,     0],
         ...,
-        [  101,  1996,  2088,  ...,     0,     0,     0],
-        [  101,  6536, 11632,  ...,     0,     0,     0],
-        [  101,  1996,  1056,  ...,     0,     0,     0]], device='cuda:0')
-2024-06-29 20:36:36,953 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/mask (Shape: 32 x 51)
+        [  101,  1996,  8874,  ...,     0,     0,     0],
+        [  101,  2057,  2031,  ...,     0,     0,     0],
+        [  101,  1000,  2002,  ...,     0,     0,     0]], device='cuda:0')
+2024-07-01 00:22:24,149 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/mask (Shape: 32 x 43)
 tensor([[ True,  True,  True,  ..., False, False, False],
-        [ True,  True,  True,  ..., False, False, False],
+        [ True,  True,  True,  ...,  True,  True,  True],
         [ True,  True,  True,  ..., False, False, False],
         ...,
         [ True,  True,  True,  ..., False, False, False],
-        [ True,  True, False,  ..., False, False, False],
+        [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False]], device='cuda:0')
-2024-06-29 20:36:36,954 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/type_ids (Shape: 32 x 57)
+2024-07-01 00:22:24,150 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/type_ids (Shape: 32 x 47)
 tensor([[0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
@@ -336,101 +336,101 @@ tensor([[0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
-2024-06-29 20:36:36,956 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/wordpiece_mask (Shape: 32 x 57)
+2024-07-01 00:22:24,151 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/wordpiece_mask (Shape: 32 x 47)
 tensor([[ True,  True,  True,  ..., False, False, False],
-        [ True,  True,  True,  ..., False, False, False],
+        [ True,  True,  True,  ...,  True,  True,  True],
         [ True,  True,  True,  ..., False, False, False],
         ...,
         [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False]], device='cuda:0')
-2024-06-29 20:36:36,957 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/offsets (Shape: 32 x 51 x 2)
-tensor([[[1, 1],
-         [2, 2],
-         [3, 3],
+2024-07-01 00:22:24,152 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/offsets (Shape: 32 x 43 x 2)
+tensor([[[ 1,  1],
+         [ 2,  2],
+         [ 3,  3],
          ...,
-         [0, 0],
-         [0, 0],
-         [0, 0]],
+         [ 0,  0],
+         [ 0,  0],
+         [ 0,  0]],
 
-        [[1, 1],
-         [2, 2],
-         [3, 3],
+        [[ 1,  1],
+         [ 2,  2],
+         [ 3,  3],
          ...,
-         [0, 0],
-         [0, 0],
-         [0, 0]],
+         [43, 43],
+         [44, 44],
+         [45, 45]],
 
-        [[1, 1],
-         [2, 2],
-         [3, 3],
+        [[ 1,  1],
+         [ 2,  2],
+         [ 3,  4],
          ...,
-         [0, 0],
-         [0, 0],
-         [0, 0]],
+         [ 0,  0],
+         [ 0,  0],
+         [ 0,  0]],
 
         ...,
 
-        [[1, 1],
-         [2, 2],
-         [3, 3],
+        [[ 1,  1],
+         [ 2,  2],
+         [ 3,  3],
          ...,
-         [0, 0],
-         [0, 0],
-         [0, 0]],
+         [ 0,  0],
+         [ 0,  0],
+         [ 0,  0]],
 
-        [[1, 1],
-         [2, 3],
-         [0, 0],
+        [[ 1,  1],
+         [ 2,  2],
+         [ 3,  3],
          ...,
-         [0, 0],
-         [0, 0],
-         [0, 0]],
+         [ 0,  0],
+         [ 0,  0],
+         [ 0,  0]],
 
-        [[1, 1],
-         [2, 3],
-         [4, 4],
+        [[ 1,  1],
+         [ 2,  2],
+         [ 3,  3],
          ...,
-         [0, 0],
-         [0, 0],
-         [0, 0]]], device='cuda:0')
-2024-06-29 20:36:36,960 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/sentences" : (Length 32 of type "<class 'list'>")
-2024-06-29 20:36:36,960 - INFO - allennlp.training.callbacks.console_logger - batch_input/lemma_rule_labels (Shape: 32 x 51)
-tensor([[0, 8, 0,  ..., 0, 0, 0],
-        [1, 0, 0,  ..., 0, 0, 0],
-        [3, 0, 1,  ..., 0, 0, 0],
+         [ 0,  0],
+         [ 0,  0],
+         [ 0,  0]]], device='cuda:0')
+2024-07-01 00:22:24,155 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/sentences" : (Length 32 of type "<class 'list'>")
+2024-07-01 00:22:24,155 - INFO - allennlp.training.callbacks.console_logger - batch_input/lemma_rule_labels (Shape: 32 x 43)
+tensor([[ 0,  0,  4,  ...,  0,  0,  0],
+        [ 0,  1,  1,  ...,  0,  0,  0],
+        [ 0,  0,  0,  ...,  0,  0,  0],
         ...,
-        [0, 0, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
-2024-06-29 20:36:36,961 - INFO - allennlp.training.callbacks.console_logger - batch_input/pos_feats_labels (Shape: 32 x 51)
-tensor([[37, 66,  8,  ...,  0,  0,  0],
-        [ 5,  1,  3,  ...,  0,  0,  0],
-        [16,  1,  5,  ...,  0,  0,  0],
+        [ 0,  0,  8,  ...,  0,  0,  0],
+        [ 0,  0, 19,  ...,  0,  0,  0],
+        [ 0,  0,  5,  ...,  0,  0,  0]], device='cuda:0')
+2024-07-01 00:22:24,156 - INFO - allennlp.training.callbacks.console_logger - batch_input/pos_feats_labels (Shape: 32 x 43)
+tensor([[ 3,  3, 14,  ...,  0,  0,  0],
+        [ 1, 13,  5,  ...,  0,  2,  2],
+        [ 8, 20, 21,  ...,  0,  0,  0],
         ...,
-        [ 6,  4,  3,  ...,  0,  0,  0],
-        [ 0,  0,  0,  ...,  0,  0,  0],
-        [ 6, 20, 19,  ...,  0,  0,  0]], device='cuda:0')
-2024-06-29 20:36:36,962 - INFO - allennlp.training.callbacks.console_logger - batch_input/deprel_labels (Shape: 32 x 51 x 51)
+        [ 6,  0, 11,  ...,  0,  0,  0],
+        [37, 66, 13,  ...,  0,  0,  0],
+        [ 2, 26, 11,  ...,  0,  0,  0]], device='cuda:0')
+2024-07-01 00:22:24,158 - INFO - allennlp.training.callbacks.console_logger - batch_input/deprel_labels (Shape: 32 x 43 x 43)
 tensor([[[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+         [28, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1,  1,  ..., -1, -1, -1],
-         [ 9, -1, -1,  ..., -1, -1, -1],
-         ...,
+        [[-1, -1,  1,  ..., -1, -1, -1],
+         [-1, -1, 21,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
+         ...,
          [-1, -1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ...,  0, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
         [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1,  1,  ..., -1, -1, -1],
-         [ 8, -1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
+         [-1,  1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
@@ -438,49 +438,49 @@ tensor([[[-1, -1, -1,  ..., -1, -1, -1],
 
         ...,
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+        [[-1,  2, -1,  ..., -1, -1, -1],
+         [-1, -1,  3,  ..., -1, -1, -1],
+         [-1, -1,  4,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, 10, -1,  ..., -1, -1, -1],
-         [-1,  4, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+        [[-1, -1,  3,  ..., -1, -1, -1],
+         [-1, -1, 14,  ..., -1, -1, -1],
+         [-1, -1,  4,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
-         [-1, 19, -1,  ..., -1, -1, -1],
+        [[-1, -1,  0,  ..., -1, -1, -1],
+         [-1, -1,  3,  ..., -1, -1, -1],
+         [-1, -1,  4,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]]], device='cuda:0')
-2024-06-29 20:36:36,969 - INFO - allennlp.training.callbacks.console_logger - batch_input/deps_labels (Shape: 32 x 51 x 51)
+2024-07-01 00:22:24,164 - INFO - allennlp.training.callbacks.console_logger - batch_input/deps_labels (Shape: 32 x 43 x 43)
 tensor([[[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+         [33, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1,  1,  ..., -1, -1, -1],
-         [30, -1, -1,  ..., -1, -1, -1],
-         ...,
+        [[-1, -1,  1,  ..., -1, -1, -1],
+         [-1, -1, 28,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
+         ...,
          [-1, -1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ...,  0, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
         [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1,  1,  ..., -1, -1, -1],
-         [27, -1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
+         [-1,  1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
@@ -488,77 +488,77 @@ tensor([[[-1, -1, -1,  ..., -1, -1, -1],
 
         ...,
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+        [[-1,  3, -1,  ..., -1, -1, -1],
+         [-1, -1,  2,  ..., -1, -1, -1],
+         [-1, -1,  4,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1,  8, -1,  ..., -1, -1, -1],
-         [-1,  4, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+        [[-1, -1,  2,  ..., -1, -1, -1],
+         [-1, -1, 11,  ..., -1, -1, -1],
+         [-1, -1,  4,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
-         [-1, 17, -1,  ..., -1, -1, -1],
+        [[-1, -1,  0,  ..., -1, -1, -1],
+         [-1, -1,  2,  ..., -1, -1, -1],
+         [-1, -1,  4,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]]], device='cuda:0')
-2024-06-29 20:36:36,975 - INFO - allennlp.training.callbacks.console_logger - batch_input/misc_labels (Shape: 32 x 51)
+2024-07-01 00:22:24,170 - INFO - allennlp.training.callbacks.console_logger - batch_input/misc_labels (Shape: 32 x 43)
 tensor([[0, 0, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0],
+        [0, 0, 0,  ..., 1, 1, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         ...,
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
-2024-06-29 20:36:36,976 - INFO - allennlp.training.callbacks.console_logger - batch_input/semslot_labels (Shape: 32 x 51)
-tensor([[ 4,  0, 32,  ...,  0,  0,  0],
-        [ 3,  0,  8,  ...,  0,  0,  0],
-        [25,  0, 14,  ...,  0,  0,  0],
+        [1, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
+2024-07-01 00:22:24,172 - INFO - allennlp.training.callbacks.console_logger - batch_input/semslot_labels (Shape: 32 x 43)
+tensor([[ 4,  7,  0,  ...,  0,  0,  0],
+        [ 0, 11, 47,  ..., 44,  0,  0],
+        [32,  4,  0,  ...,  0,  0,  0],
         ...,
-        [ 0,  6,  9,  ...,  0,  0,  0],
-        [ 9, 33,  0,  ...,  0,  0,  0],
-        [ 0,  7, 51,  ...,  0,  0,  0]], device='cuda:0')
-2024-06-29 20:36:36,977 - INFO - allennlp.training.callbacks.console_logger - batch_input/semclass_labels (Shape: 32 x 51)
-tensor([[  1,   5,  20,  ...,   0,   0,   0],
-        [ 38,   2,  25,  ...,   0,   0,   0],
-        [ 16,   2,  33,  ...,   0,   0,   0],
+        [ 0,  3,  2,  ...,  0,  0,  0],
+        [ 4,  0,  2,  ...,  0,  0,  0],
+        [ 0, 16,  2,  ...,  0,  0,  0]], device='cuda:0')
+2024-07-01 00:22:24,173 - INFO - allennlp.training.callbacks.console_logger - batch_input/semclass_labels (Shape: 32 x 43)
+tensor([[  1,   1,   5,  ...,   0,   0,   0],
+        [  2,  60,  32,  ...,   8,   0,   0],
+        [ 19,  12,   0,  ...,   0,   0,   0],
         ...,
-        [  3,  76, 160,  ...,   0,   0,   0],
-        [301,   1,   0,  ...,   0,   0,   0],
-        [  3,  21,   4,  ...,   0,   0,   0]], device='cuda:0')
-2024-06-29 20:36:36,979 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/metadata" : (Length 32 of type "<class 'conllu.models.Metadata'>")
-2024-06-29 20:36:46,611 - INFO - tqdm - NullAccuracy: 0.9942, NullF1: 0.2716, Lemma: 0.8726, PosFeats: 0.7957, UD-UAS: 0.8687, UD-LAS: 0.8768, EUD-UAS: 0.7715, EUD-LAS: 0.7808, Misc: 0.9417, SS: 0.7428, SC: 0.6410, Avg: 0.8102, batch_loss: 3.9208, loss: 5.7174 ||:  66%|######6   | 143/216 [00:10<00:04, 15.06it/s]
-2024-06-29 20:36:51,446 - INFO - tqdm - NullAccuracy: 0.9948, NullF1: 0.4378, Lemma: 0.8876, PosFeats: 0.8269, UD-UAS: 0.8732, UD-LAS: 0.8811, EUD-UAS: 0.7793, EUD-LAS: 0.7884, Misc: 0.9502, SS: 0.7626, SC: 0.6625, Avg: 0.8235, batch_loss: 3.4307, loss: 5.1188 ||: 100%|#########9| 215/216 [00:14<00:00, 14.88it/s]
-2024-06-29 20:36:51,501 - INFO - tqdm - NullAccuracy: 0.9948, NullF1: 0.4384, Lemma: 0.8877, PosFeats: 0.8271, UD-UAS: 0.8733, UD-LAS: 0.8812, EUD-UAS: 0.7794, EUD-LAS: 0.7885, Misc: 0.9502, SS: 0.7628, SC: 0.6628, Avg: 0.8237, batch_loss: 3.9430, loss: 5.1133 ||: 100%|##########| 216/216 [00:14<00:00, 14.50it/s]
-2024-06-29 20:36:51,502 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 20:36:51,502 - INFO - tqdm - 0%|          | 0/54 [00:00<?, ?it/s]
-2024-06-29 20:36:51,626 - INFO - allennlp.training.callbacks.console_logger - Batch inputs
-2024-06-29 20:36:51,626 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/token_ids (Shape: 32 x 51)
-tensor([[  101,  2116,  2111,  ...,     0,     0,     0],
-        [  101,  3419, 16721,  ...,     0,     0,     0],
-        [  101,  2426,  1996,  ...,     0,     0,     0],
+        [  3,  32, 198,  ...,   0,   0,   0],
+        [  1,   5,  33,  ...,   0,   0,   0],
+        [  0,   1,  27,  ...,   0,   0,   0]], device='cuda:0')
+2024-07-01 00:22:24,175 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/metadata" : (Length 32 of type "<class 'conllu.models.Metadata'>")
+2024-07-01 00:22:33,869 - INFO - tqdm - NullAccuracy: 0.9940, NullF1: 0.2732, Lemma: 0.8645, PosFeats: 0.7869, UD-UAS: 0.8695, UD-LAS: 0.8782, EUD-UAS: 0.7661, EUD-LAS: 0.7745, Misc: 0.9409, SS: 0.7440, SC: 0.6461, Avg: 0.8079, batch_loss: 4.1115, loss: 5.7498 ||:  67%|######7   | 145/216 [00:10<00:04, 14.95it/s]
+2024-07-01 00:22:38,558 - INFO - tqdm - NullAccuracy: 0.9947, NullF1: 0.4139, Lemma: 0.8804, PosFeats: 0.8185, UD-UAS: 0.8737, UD-LAS: 0.8821, EUD-UAS: 0.7726, EUD-LAS: 0.7811, Misc: 0.9488, SS: 0.7635, SC: 0.6670, Avg: 0.8208, batch_loss: 3.3410, loss: 5.1689 ||: 100%|#########9| 215/216 [00:14<00:00, 15.28it/s]
+2024-07-01 00:22:38,624 - INFO - tqdm - NullAccuracy: 0.9947, NullF1: 0.4145, Lemma: 0.8806, PosFeats: 0.8188, UD-UAS: 0.8736, UD-LAS: 0.8820, EUD-UAS: 0.7726, EUD-LAS: 0.7810, Misc: 0.9489, SS: 0.7638, SC: 0.6670, Avg: 0.8209, batch_loss: 4.0110, loss: 5.1635 ||: 100%|##########| 216/216 [00:14<00:00, 14.59it/s]
+2024-07-01 00:22:38,624 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 00:22:38,625 - INFO - tqdm - 0%|          | 0/55 [00:00<?, ?it/s]
+2024-07-01 00:22:38,759 - INFO - allennlp.training.callbacks.console_logger - Batch inputs
+2024-07-01 00:22:38,759 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/token_ids (Shape: 32 x 51)
+tensor([[ 101, 1037, 9949,  ...,    0,    0,    0],
+        [ 101, 2011, 2230,  ...,    0,    0,    0],
+        [ 101, 1000, 1996,  ...,    0,    0,    0],
         ...,
-        [  101, 16222,  2003,  ...,     0,     0,     0],
-        [  101,  1996, 13360,  ...,     0,     0,     0],
-        [  101, 10329,  1010,  ...,  2948,  1012,   102]], device='cuda:0')
-2024-06-29 20:36:51,627 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/mask (Shape: 32 x 44)
+        [ 101, 2061, 2009,  ...,    0,    0,    0],
+        [ 101, 2129, 2055,  ...,    0,    0,    0],
+        [ 101, 9433, 5795,  ...,    0,    0,    0]], device='cuda:0')
+2024-07-01 00:22:38,760 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/mask (Shape: 32 x 44)
 tensor([[ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
         ...,
         [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
-        [ True,  True,  True,  ...,  True,  True,  True]], device='cuda:0')
-2024-06-29 20:36:51,629 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/type_ids (Shape: 32 x 51)
+        [ True,  True,  True,  ..., False, False, False]], device='cuda:0')
+2024-07-01 00:22:38,762 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/type_ids (Shape: 32 x 51)
 tensor([[0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
@@ -566,99 +566,99 @@ tensor([[0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
-2024-06-29 20:36:51,630 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/wordpiece_mask (Shape: 32 x 51)
+2024-07-01 00:22:38,763 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/wordpiece_mask (Shape: 32 x 51)
 tensor([[ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
         ...,
         [ True,  True,  True,  ..., False, False, False],
         [ True,  True,  True,  ..., False, False, False],
-        [ True,  True,  True,  ...,  True,  True,  True]], device='cuda:0')
-2024-06-29 20:36:51,631 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/offsets (Shape: 32 x 44 x 2)
-tensor([[[ 1,  1],
-         [ 2,  2],
-         [ 3,  3],
+        [ True,  True,  True,  ..., False, False, False]], device='cuda:0')
+2024-07-01 00:22:38,764 - INFO - allennlp.training.callbacks.console_logger - batch_input/words/tokens/offsets (Shape: 32 x 44 x 2)
+tensor([[[1, 1],
+         [2, 2],
+         [3, 3],
          ...,
-         [ 0,  0],
-         [ 0,  0],
-         [ 0,  0]],
+         [0, 0],
+         [0, 0],
+         [0, 0]],
 
-        [[ 1,  1],
-         [ 2,  2],
-         [ 3,  3],
+        [[1, 1],
+         [2, 2],
+         [3, 3],
          ...,
-         [ 0,  0],
-         [ 0,  0],
-         [ 0,  0]],
+         [0, 0],
+         [0, 0],
+         [0, 0]],
 
-        [[ 1,  1],
-         [ 2,  2],
-         [ 3,  3],
+        [[1, 1],
+         [2, 2],
+         [3, 3],
          ...,
-         [ 0,  0],
-         [ 0,  0],
-         [ 0,  0]],
+         [0, 0],
+         [0, 0],
+         [0, 0]],
 
         ...,
 
-        [[ 1,  1],
-         [ 2,  2],
-         [ 3,  3],
+        [[1, 1],
+         [2, 2],
+         [3, 3],
          ...,
-         [ 0,  0],
-         [ 0,  0],
-         [ 0,  0]],
+         [0, 0],
+         [0, 0],
+         [0, 0]],
 
-        [[ 1,  1],
-         [ 2,  2],
-         [ 3,  3],
+        [[1, 1],
+         [2, 2],
+         [3, 3],
          ...,
-         [ 0,  0],
-         [ 0,  0],
-         [ 0,  0]],
+         [0, 0],
+         [0, 0],
+         [0, 0]],
 
-        [[ 1,  1],
-         [ 2,  2],
-         [ 3,  3],
+        [[1, 1],
+         [2, 2],
+         [3, 4],
          ...,
-         [47, 47],
-         [48, 48],
-         [49, 49]]], device='cuda:0')
-2024-06-29 20:36:51,634 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/sentences" : (Length 32 of type "<class 'list'>")
-2024-06-29 20:36:51,634 - INFO - allennlp.training.callbacks.console_logger - batch_input/lemma_rule_labels (Shape: 32 x 44)
-tensor([[0, 0, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0],
+         [0, 0],
+         [0, 0],
+         [0, 0]]], device='cuda:0')
+2024-07-01 00:22:38,767 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/sentences" : (Length 32 of type "<class 'list'>")
+2024-07-01 00:22:38,767 - INFO - allennlp.training.callbacks.console_logger - batch_input/lemma_rule_labels (Shape: 32 x 44)
+tensor([[ 0,  0,  0,  ...,  0,  0,  0],
+        [ 0,  0,  0,  ...,  0,  0,  0],
+        [ 0,  0, 10,  ...,  0,  0,  0],
         ...,
-        [0, 4, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
-2024-06-29 20:36:51,635 - INFO - allennlp.training.callbacks.console_logger - batch_input/pos_feats_labels (Shape: 32 x 44)
-tensor([[ 4,  5, 28,  ...,  0,  0,  0],
-        [ 3,  3,  2,  ...,  0,  0,  0],
-        [ 1,  6,  5,  ...,  0,  0,  0],
+        [ 0,  0,  4,  ...,  0,  0,  0],
+        [ 0,  0,  3,  ...,  0,  0,  0],
+        [ 0,  0, 79,  ...,  0,  0,  0]], device='cuda:0')
+2024-07-01 00:22:38,768 - INFO - allennlp.training.callbacks.console_logger - batch_input/pos_feats_labels (Shape: 32 x 44)
+tensor([[10,  4,  0,  ...,  0,  0,  0],
+        [ 1,  0,  2,  ...,  0,  0,  0],
+        [ 2,  6,  5,  ...,  0,  0,  0],
         ...,
-        [20, 14,  3,  ...,  0,  0,  0],
-        [ 6, 20,  4,  ...,  0,  0,  0],
-        [ 8,  2,  6,  ...,  0,  5,  2]], device='cuda:0')
-2024-06-29 20:36:51,636 - INFO - allennlp.training.callbacks.console_logger - batch_input/deprel_labels (Shape: 32 x 44 x 44)
-tensor([[[-1,  5, -1,  ..., -1, -1, -1],
-         [-1, -1,  3,  ..., -1, -1, -1],
-         [-1, -1,  4,  ..., -1, -1, -1],
+        [ 8, 23, 14,  ...,  0,  0,  0],
+        [ 8,  1, 16,  ...,  0,  0,  0],
+        [ 3,  0,  3,  ...,  0,  0,  0]], device='cuda:0')
+2024-07-01 00:22:38,770 - INFO - allennlp.training.callbacks.console_logger - batch_input/deprel_labels (Shape: 32 x 44 x 44)
+tensor([[[-1, -1,  2,  ..., -1, -1, -1],
+         [-1, -1,  5,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [28, -1, -1,  ..., -1, -1, -1],
+        [[-1,  1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1,  1,  ..., -1, -1, -1],
+        [[-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1,  2,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
@@ -676,39 +676,39 @@ tensor([[[-1,  5, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+        [[ 4, -1, -1,  ..., -1, -1, -1],
+         [-1, -1,  1,  ..., -1, -1, -1],
+         [16, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+        [[-1, 10, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
+         [-1, 23, -1,  ..., -1, -1, -1],
          ...,
-         [-1, -1, -1,  ..., -1, 10, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]]], device='cuda:0')
-2024-06-29 20:36:51,643 - INFO - allennlp.training.callbacks.console_logger - batch_input/deps_labels (Shape: 32 x 44 x 44)
-tensor([[[-1,  5, -1,  ..., -1, -1, -1],
-         [-1, -1,  2,  ..., -1, -1, -1],
-         [-1, -1,  4,  ..., -1, -1, -1],
+2024-07-01 00:22:38,776 - INFO - allennlp.training.callbacks.console_logger - batch_input/deps_labels (Shape: 32 x 44 x 44)
+tensor([[[-1, -1,  3,  ..., -1, -1, -1],
+         [-1, -1,  5,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [33, -1, -1,  ..., -1, -1, -1],
+        [[-1,  1, -1,  ..., -1, -1, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1,  1,  ..., -1, -1, -1],
+        [[-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1,  3,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          ...,
@@ -726,390 +726,390 @@ tensor([[[-1,  5, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+        [[ 4, -1, -1,  ..., -1, -1, -1],
+         [-1, -1,  1,  ..., -1, -1, -1],
+         [34, -1, -1,  ..., -1, -1, -1],
          ...,
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]],
 
-        [[-1, -1, -1,  ..., -1, -1, -1],
-         [-1, -1, -1,  ..., -1, -1, -1],
+        [[-1,  8, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
+         [-1, 22, -1,  ..., -1, -1, -1],
          ...,
-         [-1, -1, -1,  ..., -1,  8, -1],
+         [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1],
          [-1, -1, -1,  ..., -1, -1, -1]]], device='cuda:0')
-2024-06-29 20:36:51,649 - INFO - allennlp.training.callbacks.console_logger - batch_input/misc_labels (Shape: 32 x 44)
+2024-07-01 00:22:38,782 - INFO - allennlp.training.callbacks.console_logger - batch_input/misc_labels (Shape: 32 x 44)
 tensor([[0, 0, 0,  ..., 0, 0, 0],
         [0, 1, 0,  ..., 0, 0, 0],
-        [0, 0, 0,  ..., 0, 0, 0],
+        [1, 0, 0,  ..., 0, 0, 0],
         ...,
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
-        [1, 0, 0,  ..., 0, 1, 0]], device='cuda:0')
-2024-06-29 20:36:51,650 - INFO - allennlp.training.callbacks.console_logger - batch_input/semslot_labels (Shape: 32 x 44)
-tensor([[10, 12,  2,  ...,  0,  0,  0],
-        [ 4,  7,  0,  ...,  0,  0,  0],
-        [ 0,  0, 60,  ...,  0,  0,  0],
+        [0, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
+2024-07-01 00:22:38,784 - INFO - allennlp.training.callbacks.console_logger - batch_input/semslot_labels (Shape: 32 x 44)
+tensor([[  0,  41,  18,  ...,   0,   0,   0],
+        [  0,   5,   0,  ...,   0,   0,   0],
+        [  0,   0,   4,  ...,   0,   0,   0],
         ...,
-        [19,  2,  8,  ...,  0,  0,  0],
-        [ 0,  7,  8,  ...,  0,  0,  0],
-        [32,  0,  0,  ..., 41, 37,  0]], device='cuda:0')
-2024-06-29 20:36:51,652 - INFO - allennlp.training.callbacks.console_logger - batch_input/semclass_labels (Shape: 32 x 44)
-tensor([[  4,  39,  26,  ...,   0,   0,   0],
-        [  1,   1,   0,  ...,   0,   0,   0],
-        [  2,   3,   1,  ...,   0,   0,   0],
+        [ 32,  19,   2,  ...,   0,   0,   0],
+        [101,   0,  28,  ...,   0,   0,   0],
+        [  3,   4,   7,  ...,   0,   0,   0]], device='cuda:0')
+2024-07-01 00:22:38,785 - INFO - allennlp.training.callbacks.console_logger - batch_input/semclass_labels (Shape: 32 x 44)
+tensor([[  3, 105, 120,  ...,   0,   0,   0],
+        [  2,   8,   0,  ...,   0,   0,   0],
+        [  0,   3,  15,  ...,   0,   0,   0],
         ...,
-        [ 21,  11,  12,  ...,   0,   0,   0],
-        [  3,  21, 197,  ...,   0,   0,   0],
-        [ 16,   0,   3,  ..., 200,  93,   0]], device='cuda:0')
-2024-06-29 20:36:51,653 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/metadata" : (Length 32 of type "<class 'conllu.models.Metadata'>")
-2024-06-29 20:36:57,575 - INFO - tqdm - NullAccuracy: 0.9970, NullF1: 0.7468, Lemma: 0.9316, PosFeats: 0.9110, UD-UAS: 0.9019, UD-LAS: 0.9074, EUD-UAS: 0.8480, EUD-LAS: 0.8550, Misc: 0.9738, SS: 0.8160, SC: 0.7229, Avg: 0.8742, batch_loss: 3.5116, loss: 3.5299 ||: 100%|##########| 54/54 [00:06<00:00, 10.07it/s]
-2024-06-29 20:36:57,575 - INFO - tqdm - NullAccuracy: 0.9970, NullF1: 0.7468, Lemma: 0.9316, PosFeats: 0.9110, UD-UAS: 0.9019, UD-LAS: 0.9074, EUD-UAS: 0.8480, EUD-LAS: 0.8550, Misc: 0.9738, SS: 0.8160, SC: 0.7229, Avg: 0.8742, batch_loss: 3.5116, loss: 3.5299 ||: 100%|##########| 54/54 [00:06<00:00,  8.89it/s]
-2024-06-29 20:36:57,576 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.824  |     0.874
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.788  |     0.855
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.779  |     0.848
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.888  |     0.932
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.950  |     0.974
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.995  |     0.997
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.438  |     0.747
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.827  |     0.911
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.663  |     0.723
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.763  |     0.816
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.881  |     0.907
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.873  |     0.902
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |   302.498  |       N/A
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - loss               |     5.113  |     3.530
-2024-06-29 20:36:57,579 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  1869.859  |       N/A
-2024-06-29 20:36:58,064 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:21.456992
-2024-06-29 20:36:58,065 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:03:08
-2024-06-29 20:36:58,065 - INFO - allennlp.training.gradient_descent_trainer - Epoch 1/9
-2024-06-29 20:36:58,065 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
-2024-06-29 20:36:58,065 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 5.7G
-2024-06-29 20:36:58,065 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 20:36:58,066 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
-2024-06-29 20:37:08,136 - INFO - tqdm - NullAccuracy: 0.9972, NullF1: 0.7747, Lemma: 0.9506, PosFeats: 0.9312, UD-UAS: 0.8707, UD-LAS: 0.8772, EUD-UAS: 0.7461, EUD-LAS: 0.7529, Misc: 0.9867, SS: 0.8203, SC: 0.7860, Avg: 0.8580, batch_loss: 2.4581, loss: 3.0838 ||:  50%|#####     | 108/216 [00:10<00:09, 10.88it/s]
-2024-06-29 20:37:18,260 - INFO - tqdm - NullAccuracy: 0.9974, NullF1: 0.7930, Lemma: 0.9584, PosFeats: 0.9410, UD-UAS: 0.8762, UD-LAS: 0.8829, EUD-UAS: 0.7544, EUD-LAS: 0.7602, Misc: 0.9909, SS: 0.8332, SC: 0.8173, Avg: 0.8683, batch_loss: 2.4352, loss: 2.7406 ||: 100%|##########| 216/216 [00:20<00:00, 11.15it/s]
-2024-06-29 20:37:18,260 - INFO - tqdm - NullAccuracy: 0.9974, NullF1: 0.7930, Lemma: 0.9584, PosFeats: 0.9410, UD-UAS: 0.8762, UD-LAS: 0.8829, EUD-UAS: 0.7544, EUD-LAS: 0.7602, Misc: 0.9909, SS: 0.8332, SC: 0.8173, Avg: 0.8683, batch_loss: 2.4352, loss: 2.7406 ||: 100%|##########| 216/216 [00:20<00:00, 10.70it/s]
-2024-06-29 20:37:18,261 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 20:37:18,261 - INFO - tqdm - 0%|          | 0/54 [00:00<?, ?it/s]
-2024-06-29 20:37:23,816 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8369, Lemma: 0.9701, PosFeats: 0.9593, UD-UAS: 0.9170, UD-LAS: 0.9218, EUD-UAS: 0.8281, EUD-LAS: 0.8334, Misc: 0.9971, SS: 0.8622, SC: 0.8699, Avg: 0.9065, batch_loss: 1.8448, loss: 2.0042 ||: 100%|##########| 54/54 [00:05<00:00, 10.74it/s]
-2024-06-29 20:37:23,816 - INFO - tqdm - NullAccuracy: 0.9978, NullF1: 0.8369, Lemma: 0.9701, PosFeats: 0.9593, UD-UAS: 0.9170, UD-LAS: 0.9218, EUD-UAS: 0.8281, EUD-LAS: 0.8334, Misc: 0.9971, SS: 0.8622, SC: 0.8699, Avg: 0.9065, batch_loss: 1.8448, loss: 2.0042 ||: 100%|##########| 54/54 [00:05<00:00,  9.72it/s]
-2024-06-29 20:37:23,816 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 20:37:23,819 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 20:37:23,819 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.868  |     0.907
-2024-06-29 20:37:23,819 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.760  |     0.833
-2024-06-29 20:37:23,819 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.754  |     0.828
-2024-06-29 20:37:23,819 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.958  |     0.970
-2024-06-29 20:37:23,819 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.991  |     0.997
-2024-06-29 20:37:23,819 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.997  |     0.998
-2024-06-29 20:37:23,819 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.793  |     0.837
-2024-06-29 20:37:23,819 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.941  |     0.959
-2024-06-29 20:37:23,820 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.817  |     0.870
-2024-06-29 20:37:23,820 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.833  |     0.862
-2024-06-29 20:37:23,820 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.883  |     0.922
-2024-06-29 20:37:23,820 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.876  |     0.917
-2024-06-29 20:37:23,820 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  5882.536  |       N/A
-2024-06-29 20:37:23,820 - INFO - allennlp.training.callbacks.console_logger - loss               |     2.741  |     2.004
-2024-06-29 20:37:23,820 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2238.008  |       N/A
-2024-06-29 20:37:24,943 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.878470
-2024-06-29 20:37:24,943 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:03:08
-2024-06-29 20:37:24,943 - INFO - allennlp.training.gradient_descent_trainer - Epoch 2/9
-2024-06-29 20:37:24,943 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
-2024-06-29 20:37:24,943 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
-2024-06-29 20:37:24,944 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 20:37:24,944 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
-2024-06-29 20:37:35,028 - INFO - tqdm - NullAccuracy: 0.9984, NullF1: 0.8743, Lemma: 0.9768, PosFeats: 0.9661, UD-UAS: 0.9118, UD-LAS: 0.9175, EUD-UAS: 0.8066, EUD-LAS: 0.8110, Misc: 0.9969, SS: 0.8809, SC: 0.8881, Avg: 0.9062, batch_loss: 1.3013, loss: 1.6233 ||:  50%|#####     | 108/216 [00:10<00:10, 10.51it/s]
-2024-06-29 20:37:45,118 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8621, Lemma: 0.9782, PosFeats: 0.9675, UD-UAS: 0.9118, UD-LAS: 0.9173, EUD-UAS: 0.8089, EUD-LAS: 0.8130, Misc: 0.9970, SS: 0.8818, SC: 0.8905, Avg: 0.9073, batch_loss: 1.7453, loss: 1.6083 ||: 100%|##########| 216/216 [00:20<00:00, 11.04it/s]
-2024-06-29 20:37:45,118 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8621, Lemma: 0.9782, PosFeats: 0.9675, UD-UAS: 0.9118, UD-LAS: 0.9173, EUD-UAS: 0.8089, EUD-LAS: 0.8130, Misc: 0.9970, SS: 0.8818, SC: 0.8905, Avg: 0.9073, batch_loss: 1.7453, loss: 1.6083 ||: 100%|##########| 216/216 [00:20<00:00, 10.71it/s]
-2024-06-29 20:37:45,119 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 20:37:45,119 - INFO - tqdm - 0%|          | 0/54 [00:00<?, ?it/s]
-2024-06-29 20:37:50,629 - INFO - tqdm - NullAccuracy: 0.9977, NullF1: 0.8185, Lemma: 0.9799, PosFeats: 0.9658, UD-UAS: 0.9213, UD-LAS: 0.9252, EUD-UAS: 0.8361, EUD-LAS: 0.8409, Misc: 0.9977, SS: 0.8795, SC: 0.8895, Avg: 0.9151, batch_loss: 1.5157, loss: 1.7664 ||: 100%|##########| 54/54 [00:05<00:00,  9.80it/s]
-2024-06-29 20:37:50,629 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.907  |     0.915
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.813  |     0.841
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.809  |     0.836
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.978  |     0.980
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.997  |     0.998
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.862  |     0.819
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.968  |     0.966
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.891  |     0.889
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.882  |     0.880
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.917  |     0.925
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.912  |     0.921
-2024-06-29 20:37:50,632 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9254.472  |       N/A
-2024-06-29 20:37:50,633 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.608  |     1.766
-2024-06-29 20:37:50,633 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2254.316  |       N/A
-2024-06-29 20:37:51,810 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.866914
-2024-06-29 20:37:51,810 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:02:52
-2024-06-29 20:37:51,810 - INFO - allennlp.training.gradient_descent_trainer - Epoch 3/9
-2024-06-29 20:37:51,810 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
-2024-06-29 20:37:51,811 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
-2024-06-29 20:37:51,811 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 20:37:51,811 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
-2024-06-29 20:38:01,894 - INFO - tqdm - NullAccuracy: 0.9984, NullF1: 0.8775, Lemma: 0.9857, PosFeats: 0.9773, UD-UAS: 0.9298, UD-LAS: 0.9347, EUD-UAS: 0.8389, EUD-LAS: 0.8426, Misc: 0.9982, SS: 0.9114, SC: 0.9207, Avg: 0.9266, batch_loss: 1.1440, loss: 1.1198 ||:  47%|####7     | 102/216 [00:10<00:10, 10.55it/s]
-2024-06-29 20:38:11,922 - INFO - tqdm - NullAccuracy: 0.9984, NullF1: 0.8757, Lemma: 0.9860, PosFeats: 0.9781, UD-UAS: 0.9313, UD-LAS: 0.9361, EUD-UAS: 0.8431, EUD-LAS: 0.8466, Misc: 0.9982, SS: 0.9104, SC: 0.9205, Avg: 0.9278, batch_loss: 1.1281, loss: 1.1166 ||:  97%|#########7| 210/216 [00:20<00:00, 10.77it/s]
-2024-06-29 20:38:12,462 - INFO - tqdm - NullAccuracy: 0.9984, NullF1: 0.8751, Lemma: 0.9860, PosFeats: 0.9780, UD-UAS: 0.9314, UD-LAS: 0.9362, EUD-UAS: 0.8435, EUD-LAS: 0.8470, Misc: 0.9981, SS: 0.9102, SC: 0.9204, Avg: 0.9279, batch_loss: 1.0300, loss: 1.1167 ||: 100%|##########| 216/216 [00:20<00:00, 11.06it/s]
-2024-06-29 20:38:12,462 - INFO - tqdm - NullAccuracy: 0.9984, NullF1: 0.8751, Lemma: 0.9860, PosFeats: 0.9780, UD-UAS: 0.9314, UD-LAS: 0.9362, EUD-UAS: 0.8435, EUD-LAS: 0.8470, Misc: 0.9981, SS: 0.9102, SC: 0.9204, Avg: 0.9279, batch_loss: 1.0300, loss: 1.1167 ||: 100%|##########| 216/216 [00:20<00:00, 10.46it/s]
-2024-06-29 20:38:12,463 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 20:38:12,464 - INFO - tqdm - 0%|          | 0/54 [00:00<?, ?it/s]
-2024-06-29 20:38:17,399 - INFO - tqdm - NullAccuracy: 0.9977, NullF1: 0.8349, Lemma: 0.9853, PosFeats: 0.9689, UD-UAS: 0.9277, UD-LAS: 0.9313, EUD-UAS: 0.8721, EUD-LAS: 0.8772, Misc: 0.9978, SS: 0.8854, SC: 0.8971, Avg: 0.9270, batch_loss: 1.5210, loss: 1.8011 ||: 100%|##########| 54/54 [00:04<00:00, 10.94it/s]
-2024-06-29 20:38:17,399 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.928  |     0.927
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.847  |     0.877
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.844  |     0.872
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.986  |     0.985
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.998  |     0.998
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.875  |     0.835
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.978  |     0.969
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.920  |     0.897
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.910  |     0.885
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.936  |     0.931
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.931  |     0.928
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9251.383  |       N/A
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.117  |     1.801
-2024-06-29 20:38:17,403 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2255.574  |       N/A
-2024-06-29 20:38:18,640 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.829743
-2024-06-29 20:38:18,640 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:02:31
-2024-06-29 20:38:18,640 - INFO - allennlp.training.gradient_descent_trainer - Epoch 4/9
-2024-06-29 20:38:18,640 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
-2024-06-29 20:38:18,640 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
-2024-06-29 20:38:18,641 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 20:38:18,641 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
-2024-06-29 20:38:28,691 - INFO - tqdm - NullAccuracy: 0.9987, NullF1: 0.9004, Lemma: 0.9908, PosFeats: 0.9844, UD-UAS: 0.9437, UD-LAS: 0.9479, EUD-UAS: 0.8604, EUD-LAS: 0.8631, Misc: 0.9987, SS: 0.9314, SC: 0.9454, Avg: 0.9407, batch_loss: 0.7078, loss: 0.7921 ||:  50%|#####     | 108/216 [00:10<00:10, 10.77it/s]
-2024-06-29 20:38:38,710 - INFO - tqdm - NullAccuracy: 0.9988, NullF1: 0.9118, Lemma: 0.9907, PosFeats: 0.9846, UD-UAS: 0.9438, UD-LAS: 0.9480, EUD-UAS: 0.8624, EUD-LAS: 0.8654, Misc: 0.9986, SS: 0.9308, SC: 0.9433, Avg: 0.9408, batch_loss: 0.8324, loss: 0.8126 ||: 100%|##########| 216/216 [00:20<00:00, 11.10it/s]
-2024-06-29 20:38:38,711 - INFO - tqdm - NullAccuracy: 0.9988, NullF1: 0.9118, Lemma: 0.9907, PosFeats: 0.9846, UD-UAS: 0.9438, UD-LAS: 0.9480, EUD-UAS: 0.8624, EUD-LAS: 0.8654, Misc: 0.9986, SS: 0.9308, SC: 0.9433, Avg: 0.9408, batch_loss: 0.8324, loss: 0.8126 ||: 100%|##########| 216/216 [00:20<00:00, 10.76it/s]
-2024-06-29 20:38:38,711 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 20:38:38,712 - INFO - tqdm - 0%|          | 0/54 [00:00<?, ?it/s]
-2024-06-29 20:38:43,793 - INFO - tqdm - NullAccuracy: 0.9979, NullF1: 0.8449, Lemma: 0.9870, PosFeats: 0.9711, UD-UAS: 0.9285, UD-LAS: 0.9320, EUD-UAS: 0.8747, EUD-LAS: 0.8783, Misc: 0.9982, SS: 0.8923, SC: 0.9018, Avg: 0.9293, batch_loss: 1.4962, loss: 1.8848 ||: 100%|##########| 54/54 [00:05<00:00, 10.63it/s]
-2024-06-29 20:38:43,794 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 20:38:43,796 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 20:38:43,796 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.941  |     0.929
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.865  |     0.878
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.862  |     0.875
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.991  |     0.987
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.999  |     0.998
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.999  |     0.998
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.912  |     0.845
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.985  |     0.971
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.943  |     0.902
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.931  |     0.892
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.948  |     0.932
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.944  |     0.929
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9251.376  |       N/A
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.813  |     1.885
-2024-06-29 20:38:43,797 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2255.574  |       N/A
-2024-06-29 20:38:45,030 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.390219
-2024-06-29 20:38:45,031 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:02:07
-2024-06-29 20:38:45,031 - INFO - allennlp.training.gradient_descent_trainer - Epoch 5/9
-2024-06-29 20:38:45,031 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
-2024-06-29 20:38:45,031 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
-2024-06-29 20:38:45,032 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 20:38:45,032 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
-2024-06-29 20:38:55,168 - INFO - tqdm - NullAccuracy: 0.9992, NullF1: 0.9405, Lemma: 0.9944, PosFeats: 0.9889, UD-UAS: 0.9533, UD-LAS: 0.9571, EUD-UAS: 0.8779, EUD-LAS: 0.8806, Misc: 0.9991, SS: 0.9506, SC: 0.9617, Avg: 0.9515, batch_loss: 0.5884, loss: 0.5828 ||:  50%|#####     | 108/216 [00:10<00:10, 10.61it/s]
-2024-06-29 20:39:05,183 - INFO - tqdm - NullAccuracy: 0.9991, NullF1: 0.9311, Lemma: 0.9943, PosFeats: 0.9885, UD-UAS: 0.9528, UD-LAS: 0.9564, EUD-UAS: 0.8784, EUD-LAS: 0.8814, Misc: 0.9990, SS: 0.9490, SC: 0.9613, Avg: 0.9512, batch_loss: 0.5979, loss: 0.5959 ||: 100%|##########| 216/216 [00:20<00:00, 11.08it/s]
-2024-06-29 20:39:05,183 - INFO - tqdm - NullAccuracy: 0.9991, NullF1: 0.9311, Lemma: 0.9943, PosFeats: 0.9885, UD-UAS: 0.9528, UD-LAS: 0.9564, EUD-UAS: 0.8784, EUD-LAS: 0.8814, Misc: 0.9990, SS: 0.9490, SC: 0.9613, Avg: 0.9512, batch_loss: 0.5979, loss: 0.5959 ||: 100%|##########| 216/216 [00:20<00:00, 10.72it/s]
-2024-06-29 20:39:05,184 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 20:39:05,185 - INFO - tqdm - 0%|          | 0/54 [00:00<?, ?it/s]
-2024-06-29 20:39:10,011 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8560, Lemma: 0.9875, PosFeats: 0.9717, UD-UAS: 0.9304, UD-LAS: 0.9333, EUD-UAS: 0.8813, EUD-LAS: 0.8851, Misc: 0.9983, SS: 0.8936, SC: 0.9031, Avg: 0.9316, batch_loss: 1.5830, loss: 2.0277 ||: 100%|##########| 54/54 [00:04<00:00, 11.96it/s]
-2024-06-29 20:39:10,011 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8560, Lemma: 0.9875, PosFeats: 0.9717, UD-UAS: 0.9304, UD-LAS: 0.9333, EUD-UAS: 0.8813, EUD-LAS: 0.8851, Misc: 0.9983, SS: 0.8936, SC: 0.9031, Avg: 0.9316, batch_loss: 1.5830, loss: 2.0277 ||: 100%|##########| 54/54 [00:04<00:00, 11.19it/s]
-2024-06-29 20:39:10,011 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 20:39:10,014 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 20:39:10,014 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.951  |     0.932
-2024-06-29 20:39:10,014 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.881  |     0.885
-2024-06-29 20:39:10,014 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.878  |     0.881
-2024-06-29 20:39:10,014 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.994  |     0.988
-2024-06-29 20:39:10,014 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.999  |     0.998
-2024-06-29 20:39:10,014 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.999  |     0.998
-2024-06-29 20:39:10,015 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.931  |     0.856
-2024-06-29 20:39:10,015 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.988  |     0.972
-2024-06-29 20:39:10,015 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.961  |     0.903
-2024-06-29 20:39:10,015 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.949  |     0.894
-2024-06-29 20:39:10,015 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.956  |     0.933
-2024-06-29 20:39:10,015 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.953  |     0.930
-2024-06-29 20:39:10,015 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9254.536  |       N/A
-2024-06-29 20:39:10,015 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.596  |     2.028
-2024-06-29 20:39:10,015 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2255.574  |       N/A
-2024-06-29 20:39:11,250 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.219192
-2024-06-29 20:39:11,250 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:01:42
-2024-06-29 20:39:11,250 - INFO - allennlp.training.gradient_descent_trainer - Epoch 6/9
-2024-06-29 20:39:11,250 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
-2024-06-29 20:39:11,250 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
-2024-06-29 20:39:11,251 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 20:39:11,251 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
-2024-06-29 20:39:21,329 - INFO - tqdm - NullAccuracy: 0.9994, NullF1: 0.9535, Lemma: 0.9961, PosFeats: 0.9918, UD-UAS: 0.9597, UD-LAS: 0.9628, EUD-UAS: 0.8904, EUD-LAS: 0.8925, Misc: 0.9994, SS: 0.9627, SC: 0.9744, Avg: 0.9589, batch_loss: 0.4239, loss: 0.4424 ||:  50%|#####     | 108/216 [00:10<00:10, 10.27it/s]
-2024-06-29 20:39:31,425 - INFO - tqdm - NullAccuracy: 0.9994, NullF1: 0.9562, Lemma: 0.9961, PosFeats: 0.9915, UD-UAS: 0.9595, UD-LAS: 0.9629, EUD-UAS: 0.8907, EUD-LAS: 0.8934, Misc: 0.9994, SS: 0.9624, SC: 0.9735, Avg: 0.9588, batch_loss: 0.4219, loss: 0.4452 ||: 100%|##########| 216/216 [00:20<00:00, 10.45it/s]
-2024-06-29 20:39:31,425 - INFO - tqdm - NullAccuracy: 0.9994, NullF1: 0.9562, Lemma: 0.9961, PosFeats: 0.9915, UD-UAS: 0.9595, UD-LAS: 0.9629, EUD-UAS: 0.8907, EUD-LAS: 0.8934, Misc: 0.9994, SS: 0.9624, SC: 0.9735, Avg: 0.9588, batch_loss: 0.4219, loss: 0.4452 ||: 100%|##########| 216/216 [00:20<00:00, 10.71it/s]
-2024-06-29 20:39:31,426 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 20:39:31,427 - INFO - tqdm - 0%|          | 0/54 [00:00<?, ?it/s]
-2024-06-29 20:39:36,250 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8538, Lemma: 0.9887, PosFeats: 0.9733, UD-UAS: 0.9314, UD-LAS: 0.9343, EUD-UAS: 0.8947, EUD-LAS: 0.8990, Misc: 0.9985, SS: 0.8962, SC: 0.9064, Avg: 0.9358, batch_loss: 1.6100, loss: 2.1833 ||: 100%|##########| 54/54 [00:04<00:00, 11.96it/s]
-2024-06-29 20:39:36,250 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8538, Lemma: 0.9887, PosFeats: 0.9733, UD-UAS: 0.9314, UD-LAS: 0.9343, EUD-UAS: 0.8947, EUD-LAS: 0.8990, Misc: 0.9985, SS: 0.8962, SC: 0.9064, Avg: 0.9358, batch_loss: 1.6100, loss: 2.1833 ||: 100%|##########| 54/54 [00:04<00:00, 11.20it/s]
-2024-06-29 20:39:36,251 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.959  |     0.936
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.893  |     0.899
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.891  |     0.895
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.996  |     0.989
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.999  |     0.999
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.999  |     0.998
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.956  |     0.854
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.992  |     0.973
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.974  |     0.906
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.962  |     0.896
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.963  |     0.934
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.960  |     0.931
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9252.712  |       N/A
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.445  |     2.183
-2024-06-29 20:39:36,253 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2255.574  |       N/A
-2024-06-29 20:39:37,493 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.242705
-2024-06-29 20:39:37,493 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:01:16
-2024-06-29 20:39:37,493 - INFO - allennlp.training.gradient_descent_trainer - Epoch 7/9
-2024-06-29 20:39:37,493 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
-2024-06-29 20:39:37,493 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
-2024-06-29 20:39:37,494 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 20:39:37,494 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
-2024-06-29 20:39:47,661 - INFO - tqdm - NullAccuracy: 0.9996, NullF1: 0.9714, Lemma: 0.9970, PosFeats: 0.9939, UD-UAS: 0.9648, UD-LAS: 0.9680, EUD-UAS: 0.8978, EUD-LAS: 0.9001, Misc: 0.9992, SS: 0.9739, SC: 0.9818, Avg: 0.9641, batch_loss: 0.4029, loss: 0.3397 ||:  50%|#####     | 109/216 [00:10<00:09, 10.99it/s]
-2024-06-29 20:39:57,546 - INFO - tqdm - NullAccuracy: 0.9996, NullF1: 0.9700, Lemma: 0.9972, PosFeats: 0.9938, UD-UAS: 0.9660, UD-LAS: 0.9690, EUD-UAS: 0.9003, EUD-LAS: 0.9024, Misc: 0.9993, SS: 0.9733, SC: 0.9819, Avg: 0.9648, batch_loss: 0.3232, loss: 0.3380 ||: 100%|#########9| 215/216 [00:20<00:00, 10.98it/s]
-2024-06-29 20:39:57,619 - INFO - tqdm - NullAccuracy: 0.9996, NullF1: 0.9700, Lemma: 0.9973, PosFeats: 0.9938, UD-UAS: 0.9660, UD-LAS: 0.9690, EUD-UAS: 0.9003, EUD-LAS: 0.9024, Misc: 0.9993, SS: 0.9733, SC: 0.9819, Avg: 0.9648, batch_loss: 0.3287, loss: 0.3380 ||: 100%|##########| 216/216 [00:20<00:00, 10.73it/s]
-2024-06-29 20:39:57,620 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 20:39:57,621 - INFO - tqdm - 0%|          | 0/54 [00:00<?, ?it/s]
-2024-06-29 20:40:02,363 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8501, Lemma: 0.9890, PosFeats: 0.9731, UD-UAS: 0.9332, UD-LAS: 0.9359, EUD-UAS: 0.9021, EUD-LAS: 0.9042, Misc: 0.9985, SS: 0.8974, SC: 0.9070, Avg: 0.9378, batch_loss: 1.7543, loss: 2.4260 ||: 100%|##########| 54/54 [00:04<00:00, 12.16it/s]
-2024-06-29 20:40:02,363 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8501, Lemma: 0.9890, PosFeats: 0.9731, UD-UAS: 0.9332, UD-LAS: 0.9359, EUD-UAS: 0.9021, EUD-LAS: 0.9042, Misc: 0.9985, SS: 0.8974, SC: 0.9070, Avg: 0.9378, batch_loss: 1.7543, loss: 2.4260 ||: 100%|##########| 54/54 [00:04<00:00, 11.39it/s]
-2024-06-29 20:40:02,364 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.965  |     0.938
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.902  |     0.904
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.900  |     0.902
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.997  |     0.989
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.999  |     0.998
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     1.000  |     0.998
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.970  |     0.850
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.994  |     0.973
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.982  |     0.907
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.973  |     0.897
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.969  |     0.936
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.966  |     0.933
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9252.802  |       N/A
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.338  |     2.426
-2024-06-29 20:40:02,367 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2255.574  |       N/A
-2024-06-29 20:40:03,602 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.109053
-2024-06-29 20:40:03,602 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:00:51
-2024-06-29 20:40:03,602 - INFO - allennlp.training.gradient_descent_trainer - Epoch 8/9
-2024-06-29 20:40:03,602 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
-2024-06-29 20:40:03,602 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
-2024-06-29 20:40:03,603 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 20:40:03,603 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
-2024-06-29 20:40:13,621 - INFO - tqdm - NullAccuracy: 0.9996, NullF1: 0.9731, Lemma: 0.9980, PosFeats: 0.9954, UD-UAS: 0.9705, UD-LAS: 0.9736, EUD-UAS: 0.9062, EUD-LAS: 0.9088, Misc: 0.9994, SS: 0.9814, SC: 0.9880, Avg: 0.9690, batch_loss: 0.2380, loss: 0.2630 ||:  50%|####9     | 107/216 [00:10<00:09, 10.98it/s]
-2024-06-29 20:40:23,640 - INFO - tqdm - NullAccuracy: 0.9997, NullF1: 0.9756, Lemma: 0.9983, PosFeats: 0.9952, UD-UAS: 0.9705, UD-LAS: 0.9733, EUD-UAS: 0.9075, EUD-LAS: 0.9100, Misc: 0.9994, SS: 0.9808, SC: 0.9880, Avg: 0.9692, batch_loss: 0.2039, loss: 0.2623 ||: 100%|#########9| 215/216 [00:20<00:00, 11.07it/s]
-2024-06-29 20:40:23,720 - INFO - tqdm - NullAccuracy: 0.9997, NullF1: 0.9756, Lemma: 0.9983, PosFeats: 0.9952, UD-UAS: 0.9705, UD-LAS: 0.9733, EUD-UAS: 0.9074, EUD-LAS: 0.9098, Misc: 0.9994, SS: 0.9808, SC: 0.9880, Avg: 0.9692, batch_loss: 0.2844, loss: 0.2624 ||: 100%|##########| 216/216 [00:20<00:00, 10.74it/s]
-2024-06-29 20:40:23,720 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 20:40:23,721 - INFO - tqdm - 0%|          | 0/54 [00:00<?, ?it/s]
-2024-06-29 20:40:28,468 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8604, Lemma: 0.9892, PosFeats: 0.9734, UD-UAS: 0.9336, UD-LAS: 0.9363, EUD-UAS: 0.9033, EUD-LAS: 0.9062, Misc: 0.9986, SS: 0.8991, SC: 0.9100, Avg: 0.9389, batch_loss: 1.8153, loss: 2.5333 ||: 100%|##########| 54/54 [00:04<00:00, 12.14it/s]
-2024-06-29 20:40:28,468 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8604, Lemma: 0.9892, PosFeats: 0.9734, UD-UAS: 0.9336, UD-LAS: 0.9363, EUD-UAS: 0.9033, EUD-LAS: 0.9062, Misc: 0.9986, SS: 0.8991, SC: 0.9100, Avg: 0.9389, batch_loss: 1.8153, loss: 2.5333 ||: 100%|##########| 54/54 [00:04<00:00, 11.37it/s]
-2024-06-29 20:40:28,469 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 20:40:28,471 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 20:40:28,471 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.969  |     0.939
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.910  |     0.906
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.907  |     0.903
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.998  |     0.989
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.999  |     0.999
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     1.000  |     0.998
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.976  |     0.860
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.995  |     0.973
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.988  |     0.910
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.981  |     0.899
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.973  |     0.936
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.970  |     0.934
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9252.432  |       N/A
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.262  |     2.533
-2024-06-29 20:40:28,472 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2256.203  |       N/A
-2024-06-29 20:40:29,708 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.105820
-2024-06-29 20:40:29,708 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:00:25
-2024-06-29 20:40:29,708 - INFO - allennlp.training.gradient_descent_trainer - Epoch 9/9
-2024-06-29 20:40:29,708 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
-2024-06-29 20:40:29,708 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
-2024-06-29 20:40:29,709 - INFO - allennlp.training.gradient_descent_trainer - Training
-2024-06-29 20:40:29,709 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
-2024-06-29 20:40:39,797 - INFO - tqdm - NullAccuracy: 0.9997, NullF1: 0.9817, Lemma: 0.9988, PosFeats: 0.9964, UD-UAS: 0.9734, UD-LAS: 0.9762, EUD-UAS: 0.9131, EUD-LAS: 0.9157, Misc: 0.9995, SS: 0.9848, SC: 0.9919, Avg: 0.9722, batch_loss: 0.1828, loss: 0.2155 ||:  50%|#####     | 108/216 [00:10<00:10, 10.77it/s]
-2024-06-29 20:40:49,926 - INFO - tqdm - NullAccuracy: 0.9998, NullF1: 0.9819, Lemma: 0.9988, PosFeats: 0.9964, UD-UAS: 0.9739, UD-LAS: 0.9765, EUD-UAS: 0.9143, EUD-LAS: 0.9165, Misc: 0.9995, SS: 0.9850, SC: 0.9917, Avg: 0.9725, batch_loss: 0.2213, loss: 0.2138 ||:  98%|#########8| 212/216 [00:20<00:00,  7.61it/s]
-2024-06-29 20:40:50,276 - INFO - tqdm - NullAccuracy: 0.9998, NullF1: 0.9822, Lemma: 0.9989, PosFeats: 0.9964, UD-UAS: 0.9739, UD-LAS: 0.9765, EUD-UAS: 0.9143, EUD-LAS: 0.9166, Misc: 0.9995, SS: 0.9850, SC: 0.9917, Avg: 0.9725, batch_loss: 0.2964, loss: 0.2140 ||: 100%|##########| 216/216 [00:20<00:00,  9.22it/s]
-2024-06-29 20:40:50,276 - INFO - tqdm - NullAccuracy: 0.9998, NullF1: 0.9822, Lemma: 0.9989, PosFeats: 0.9964, UD-UAS: 0.9739, UD-LAS: 0.9765, EUD-UAS: 0.9143, EUD-LAS: 0.9166, Misc: 0.9995, SS: 0.9850, SC: 0.9917, Avg: 0.9725, batch_loss: 0.2964, loss: 0.2140 ||: 100%|##########| 216/216 [00:20<00:00, 10.50it/s]
-2024-06-29 20:40:50,277 - INFO - allennlp.training.gradient_descent_trainer - Validating
-2024-06-29 20:40:50,277 - INFO - tqdm - 0%|          | 0/54 [00:00<?, ?it/s]
-2024-06-29 20:40:55,020 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8561, Lemma: 0.9893, PosFeats: 0.9743, UD-UAS: 0.9347, UD-LAS: 0.9373, EUD-UAS: 0.9053, EUD-LAS: 0.9082, Misc: 0.9986, SS: 0.8992, SC: 0.9094, Avg: 0.9396, batch_loss: 1.8804, loss: 2.6026 ||: 100%|##########| 54/54 [00:04<00:00, 12.12it/s]
-2024-06-29 20:40:55,020 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8561, Lemma: 0.9893, PosFeats: 0.9743, UD-UAS: 0.9347, UD-LAS: 0.9373, EUD-UAS: 0.9053, EUD-LAS: 0.9082, Misc: 0.9986, SS: 0.8992, SC: 0.9094, Avg: 0.9396, batch_loss: 1.8804, loss: 2.6026 ||: 100%|##########| 54/54 [00:04<00:00, 11.39it/s]
-2024-06-29 20:40:55,021 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
-2024-06-29 20:40:55,023 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
-2024-06-29 20:40:55,023 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.973  |     0.940
-2024-06-29 20:40:55,023 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.917  |     0.908
-2024-06-29 20:40:55,023 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.914  |     0.905
-2024-06-29 20:40:55,024 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.999  |     0.989
-2024-06-29 20:40:55,024 - INFO - allennlp.training.callbacks.console_logger - Misc               |     1.000  |     0.999
-2024-06-29 20:40:55,024 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     1.000  |     0.998
-2024-06-29 20:40:55,024 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.982  |     0.856
-2024-06-29 20:40:55,024 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.996  |     0.974
-2024-06-29 20:40:55,024 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.992  |     0.909
-2024-06-29 20:40:55,024 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.985  |     0.899
-2024-06-29 20:40:55,024 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.976  |     0.937
-2024-06-29 20:40:55,024 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.974  |     0.935
-2024-06-29 20:40:55,024 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9252.290  |       N/A
-2024-06-29 20:40:55,024 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.214  |     2.603
-2024-06-29 20:40:55,024 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2256.203  |       N/A
-2024-06-29 20:40:56,259 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.550484
-2024-06-29 20:40:56,260 - INFO - allennlp.common.util - Metrics: {
+        [ 19,  18,  11,  ...,   0,   0,   0],
+        [  4,   2,  98,  ...,   0,   0,   0],
+        [  1,   1,   1,  ...,   0,   0,   0]], device='cuda:0')
+2024-07-01 00:22:38,786 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/metadata" : (Length 32 of type "<class 'conllu.models.Metadata'>")
+2024-07-01 00:22:44,937 - INFO - tqdm - NullAccuracy: 0.9968, NullF1: 0.7310, Lemma: 0.9273, PosFeats: 0.9038, UD-UAS: 0.9017, UD-LAS: 0.9085, EUD-UAS: 0.8411, EUD-LAS: 0.8500, Misc: 0.9721, SS: 0.8126, SC: 0.7239, Avg: 0.8712, batch_loss: 3.8329, loss: 3.5760 ||: 100%|##########| 55/55 [00:06<00:00,  8.71it/s]
+2024-07-01 00:22:44,937 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 00:22:44,940 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.821  |     0.871
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.781  |     0.850
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.773  |     0.841
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.881  |     0.927
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.949  |     0.972
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.995  |     0.997
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.414  |     0.731
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.819  |     0.904
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.667  |     0.724
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.764  |     0.813
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.882  |     0.909
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.874  |     0.902
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |   302.392  |       N/A
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - loss               |     5.164  |     3.576
+2024-07-01 00:22:44,941 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  1850.277  |       N/A
+2024-07-01 00:22:45,428 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:21.613357
+2024-07-01 00:22:45,428 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:03:10
+2024-07-01 00:22:45,428 - INFO - allennlp.training.gradient_descent_trainer - Epoch 1/9
+2024-07-01 00:22:45,428 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.1G
+2024-07-01 00:22:45,428 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 5.7G
+2024-07-01 00:22:45,429 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 00:22:45,429 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
+2024-07-01 00:22:55,485 - INFO - tqdm - NullAccuracy: 0.9974, NullF1: 0.7891, Lemma: 0.9464, PosFeats: 0.9291, UD-UAS: 0.8698, UD-LAS: 0.8766, EUD-UAS: 0.7474, EUD-LAS: 0.7551, Misc: 0.9843, SS: 0.8229, SC: 0.7885, Avg: 0.8578, batch_loss: 2.4945, loss: 3.0970 ||:  50%|#####     | 108/216 [00:10<00:09, 10.93it/s]
+2024-07-01 00:23:05,561 - INFO - tqdm - NullAccuracy: 0.9975, NullF1: 0.7944, Lemma: 0.9563, PosFeats: 0.9395, UD-UAS: 0.8767, UD-LAS: 0.8834, EUD-UAS: 0.7567, EUD-LAS: 0.7634, Misc: 0.9894, SS: 0.8337, SC: 0.8169, Avg: 0.8684, batch_loss: 2.3244, loss: 2.7604 ||: 100%|##########| 216/216 [00:20<00:00, 10.44it/s]
+2024-07-01 00:23:05,562 - INFO - tqdm - NullAccuracy: 0.9975, NullF1: 0.7944, Lemma: 0.9563, PosFeats: 0.9395, UD-UAS: 0.8767, UD-LAS: 0.8834, EUD-UAS: 0.7567, EUD-LAS: 0.7634, Misc: 0.9894, SS: 0.8337, SC: 0.8169, Avg: 0.8684, batch_loss: 2.3244, loss: 2.7604 ||: 100%|##########| 216/216 [00:20<00:00, 10.73it/s]
+2024-07-01 00:23:05,562 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 00:23:05,563 - INFO - tqdm - 0%|          | 0/55 [00:00<?, ?it/s]
+2024-07-01 00:23:11,586 - INFO - tqdm - NullAccuracy: 0.9975, NullF1: 0.8180, Lemma: 0.9734, PosFeats: 0.9579, UD-UAS: 0.9181, UD-LAS: 0.9241, EUD-UAS: 0.8060, EUD-LAS: 0.8103, Misc: 0.9970, SS: 0.8628, SC: 0.8647, Avg: 0.9016, batch_loss: 1.2515, loss: 1.9746 ||: 100%|##########| 55/55 [00:06<00:00,  9.13it/s]
+2024-07-01 00:23:11,587 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 00:23:11,589 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 00:23:11,589 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.868  |     0.902
+2024-07-01 00:23:11,589 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.763  |     0.810
+2024-07-01 00:23:11,589 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.757  |     0.806
+2024-07-01 00:23:11,590 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.956  |     0.973
+2024-07-01 00:23:11,590 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.989  |     0.997
+2024-07-01 00:23:11,590 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.997  |     0.997
+2024-07-01 00:23:11,590 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.794  |     0.818
+2024-07-01 00:23:11,590 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.940  |     0.958
+2024-07-01 00:23:11,590 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.817  |     0.865
+2024-07-01 00:23:11,590 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.834  |     0.863
+2024-07-01 00:23:11,590 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.883  |     0.924
+2024-07-01 00:23:11,590 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.877  |     0.918
+2024-07-01 00:23:11,590 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  5880.270  |       N/A
+2024-07-01 00:23:11,590 - INFO - allennlp.training.callbacks.console_logger - loss               |     2.760  |     1.975
+2024-07-01 00:23:11,590 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2198.453  |       N/A
+2024-07-01 00:23:12,705 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:27.277435
+2024-07-01 00:23:12,705 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:03:11
+2024-07-01 00:23:12,705 - INFO - allennlp.training.gradient_descent_trainer - Epoch 2/9
+2024-07-01 00:23:12,706 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
+2024-07-01 00:23:12,706 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
+2024-07-01 00:23:12,706 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 00:23:12,707 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
+2024-07-01 00:23:22,735 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8577, Lemma: 0.9764, PosFeats: 0.9679, UD-UAS: 0.9119, UD-LAS: 0.9180, EUD-UAS: 0.8061, EUD-LAS: 0.8108, Misc: 0.9970, SS: 0.8806, SC: 0.8874, Avg: 0.9062, batch_loss: 2.0587, loss: 1.6421 ||:  50%|####9     | 107/216 [00:10<00:10, 10.89it/s]
+2024-07-01 00:23:32,782 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8482, Lemma: 0.9777, PosFeats: 0.9680, UD-UAS: 0.9131, UD-LAS: 0.9186, EUD-UAS: 0.8126, EUD-LAS: 0.8173, Misc: 0.9970, SS: 0.8812, SC: 0.8897, Avg: 0.9084, batch_loss: 1.6583, loss: 1.6182 ||: 100%|#########9| 215/216 [00:20<00:00, 10.73it/s]
+2024-07-01 00:23:32,875 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8485, Lemma: 0.9777, PosFeats: 0.9680, UD-UAS: 0.9132, UD-LAS: 0.9187, EUD-UAS: 0.8125, EUD-LAS: 0.8173, Misc: 0.9970, SS: 0.8813, SC: 0.8897, Avg: 0.9084, batch_loss: 1.4453, loss: 1.6174 ||: 100%|##########| 216/216 [00:20<00:00, 10.71it/s]
+2024-07-01 00:23:32,875 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 00:23:32,876 - INFO - tqdm - 0%|          | 0/55 [00:00<?, ?it/s]
+2024-07-01 00:23:38,372 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8462, Lemma: 0.9798, PosFeats: 0.9664, UD-UAS: 0.9229, UD-LAS: 0.9284, EUD-UAS: 0.8681, EUD-LAS: 0.8735, Misc: 0.9973, SS: 0.8765, SC: 0.8896, Avg: 0.9225, batch_loss: 0.3734, loss: 1.7579 ||: 100%|##########| 55/55 [00:05<00:00, 11.63it/s]
+2024-07-01 00:23:38,372 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8462, Lemma: 0.9798, PosFeats: 0.9664, UD-UAS: 0.9229, UD-LAS: 0.9284, EUD-UAS: 0.8681, EUD-LAS: 0.8735, Misc: 0.9973, SS: 0.8765, SC: 0.8896, Avg: 0.9225, batch_loss: 0.3734, loss: 1.7579 ||: 100%|##########| 55/55 [00:05<00:00, 10.01it/s]
+2024-07-01 00:23:38,373 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.908  |     0.922
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.817  |     0.873
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.813  |     0.868
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.978  |     0.980
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.997  |     0.997
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.848  |     0.846
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.968  |     0.966
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.890  |     0.890
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.881  |     0.877
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.919  |     0.928
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.913  |     0.923
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9252.234  |       N/A
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.617  |     1.758
+2024-07-01 00:23:38,375 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2212.941  |       N/A
+2024-07-01 00:23:39,547 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.841066
+2024-07-01 00:23:39,547 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:02:53
+2024-07-01 00:23:39,547 - INFO - allennlp.training.gradient_descent_trainer - Epoch 3/9
+2024-07-01 00:23:39,547 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
+2024-07-01 00:23:39,547 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
+2024-07-01 00:23:39,548 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 00:23:39,548 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
+2024-07-01 00:23:49,659 - INFO - tqdm - NullAccuracy: 0.9984, NullF1: 0.8742, Lemma: 0.9853, PosFeats: 0.9784, UD-UAS: 0.9322, UD-LAS: 0.9365, EUD-UAS: 0.8430, EUD-LAS: 0.8464, Misc: 0.9980, SS: 0.9109, SC: 0.9226, Avg: 0.9282, batch_loss: 1.2001, loss: 1.1078 ||:  48%|####7     | 103/216 [00:10<00:10, 10.87it/s]
+2024-07-01 00:23:59,763 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8718, Lemma: 0.9861, PosFeats: 0.9776, UD-UAS: 0.9315, UD-LAS: 0.9362, EUD-UAS: 0.8435, EUD-LAS: 0.8479, Misc: 0.9979, SS: 0.9100, SC: 0.9214, Avg: 0.9280, batch_loss: 1.2542, loss: 1.1277 ||:  98%|#########7| 211/216 [00:20<00:00, 10.44it/s]
+2024-07-01 00:24:00,147 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8710, Lemma: 0.9861, PosFeats: 0.9776, UD-UAS: 0.9313, UD-LAS: 0.9360, EUD-UAS: 0.8432, EUD-LAS: 0.8476, Misc: 0.9979, SS: 0.9101, SC: 0.9213, Avg: 0.9279, batch_loss: 1.2403, loss: 1.1278 ||: 100%|#########9| 215/216 [00:20<00:00, 10.44it/s]
+2024-07-01 00:24:00,240 - INFO - tqdm - NullAccuracy: 0.9983, NullF1: 0.8716, Lemma: 0.9860, PosFeats: 0.9776, UD-UAS: 0.9312, UD-LAS: 0.9359, EUD-UAS: 0.8428, EUD-LAS: 0.8472, Misc: 0.9979, SS: 0.9101, SC: 0.9214, Avg: 0.9278, batch_loss: 1.3940, loss: 1.1290 ||: 100%|##########| 216/216 [00:20<00:00, 10.44it/s]
+2024-07-01 00:24:00,240 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 00:24:00,241 - INFO - tqdm - 0%|          | 0/55 [00:00<?, ?it/s]
+2024-07-01 00:24:05,313 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8556, Lemma: 0.9828, PosFeats: 0.9679, UD-UAS: 0.9301, UD-LAS: 0.9345, EUD-UAS: 0.8609, EUD-LAS: 0.8680, Misc: 0.9982, SS: 0.8875, SC: 0.8976, Avg: 0.9253, batch_loss: 0.2375, loss: 1.7720 ||: 100%|##########| 55/55 [00:05<00:00, 12.49it/s]
+2024-07-01 00:24:05,313 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8556, Lemma: 0.9828, PosFeats: 0.9679, UD-UAS: 0.9301, UD-LAS: 0.9345, EUD-UAS: 0.8609, EUD-LAS: 0.8680, Misc: 0.9982, SS: 0.8875, SC: 0.8976, Avg: 0.9253, batch_loss: 0.2375, loss: 1.7720 ||: 100%|##########| 55/55 [00:05<00:00, 10.84it/s]
+2024-07-01 00:24:05,313 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 00:24:05,315 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.928  |     0.925
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.847  |     0.868
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.843  |     0.861
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.986  |     0.983
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.998  |     0.998
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.998  |     0.998
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.872  |     0.856
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.978  |     0.968
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.921  |     0.898
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.910  |     0.888
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.936  |     0.934
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.931  |     0.930
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9252.489  |       N/A
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.129  |     1.772
+2024-07-01 00:24:05,316 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2215.156  |       N/A
+2024-07-01 00:24:06,557 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:27.009872
+2024-07-01 00:24:06,557 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:02:32
+2024-07-01 00:24:06,557 - INFO - allennlp.training.gradient_descent_trainer - Epoch 4/9
+2024-07-01 00:24:06,557 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
+2024-07-01 00:24:06,557 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
+2024-07-01 00:24:06,558 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 00:24:06,558 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
+2024-07-01 00:24:16,614 - INFO - tqdm - NullAccuracy: 0.9988, NullF1: 0.9040, Lemma: 0.9909, PosFeats: 0.9837, UD-UAS: 0.9437, UD-LAS: 0.9482, EUD-UAS: 0.8597, EUD-LAS: 0.8637, Misc: 0.9986, SS: 0.9330, SC: 0.9456, Avg: 0.9408, batch_loss: 0.7967, loss: 0.8015 ||:  50%|#####     | 108/216 [00:10<00:09, 10.83it/s]
+2024-07-01 00:24:26,606 - INFO - tqdm - NullAccuracy: 0.9988, NullF1: 0.9122, Lemma: 0.9910, PosFeats: 0.9836, UD-UAS: 0.9445, UD-LAS: 0.9489, EUD-UAS: 0.8636, EUD-LAS: 0.8675, Misc: 0.9986, SS: 0.9304, SC: 0.9445, Avg: 0.9414, batch_loss: 0.9325, loss: 0.8134 ||: 100%|##########| 216/216 [00:20<00:00, 10.37it/s]
+2024-07-01 00:24:26,607 - INFO - tqdm - NullAccuracy: 0.9988, NullF1: 0.9122, Lemma: 0.9910, PosFeats: 0.9836, UD-UAS: 0.9445, UD-LAS: 0.9489, EUD-UAS: 0.8636, EUD-LAS: 0.8675, Misc: 0.9986, SS: 0.9304, SC: 0.9445, Avg: 0.9414, batch_loss: 0.9325, loss: 0.8134 ||: 100%|##########| 216/216 [00:20<00:00, 10.77it/s]
+2024-07-01 00:24:26,607 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 00:24:26,608 - INFO - tqdm - 0%|          | 0/55 [00:00<?, ?it/s]
+2024-07-01 00:24:31,548 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8496, Lemma: 0.9864, PosFeats: 0.9695, UD-UAS: 0.9339, UD-LAS: 0.9381, EUD-UAS: 0.8816, EUD-LAS: 0.8861, Misc: 0.9983, SS: 0.8920, SC: 0.9024, Avg: 0.9320, batch_loss: 0.4380, loss: 1.8066 ||: 100%|##########| 55/55 [00:04<00:00, 11.13it/s]
+2024-07-01 00:24:31,549 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.941  |     0.932
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.867  |     0.886
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.864  |     0.882
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.991  |     0.986
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.999  |     0.998
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.999  |     0.998
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.912  |     0.850
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.984  |     0.970
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.944  |     0.902
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.930  |     0.892
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.949  |     0.938
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.945  |     0.934
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9253.307  |       N/A
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.813  |     1.807
+2024-07-01 00:24:31,551 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2215.156  |       N/A
+2024-07-01 00:24:32,786 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.229712
+2024-07-01 00:24:32,787 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:02:07
+2024-07-01 00:24:32,787 - INFO - allennlp.training.gradient_descent_trainer - Epoch 5/9
+2024-07-01 00:24:32,787 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
+2024-07-01 00:24:32,787 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
+2024-07-01 00:24:32,788 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 00:24:32,788 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
+2024-07-01 00:24:42,796 - INFO - tqdm - NullAccuracy: 0.9991, NullF1: 0.9308, Lemma: 0.9942, PosFeats: 0.9884, UD-UAS: 0.9533, UD-LAS: 0.9570, EUD-UAS: 0.8776, EUD-LAS: 0.8801, Misc: 0.9991, SS: 0.9505, SC: 0.9642, Avg: 0.9516, batch_loss: 0.6414, loss: 0.5718 ||:  50%|#####     | 108/216 [00:10<00:10, 10.64it/s]
+2024-07-01 00:24:52,817 - INFO - tqdm - NullAccuracy: 0.9990, NullF1: 0.9240, Lemma: 0.9940, PosFeats: 0.9884, UD-UAS: 0.9533, UD-LAS: 0.9570, EUD-UAS: 0.8791, EUD-LAS: 0.8818, Misc: 0.9991, SS: 0.9485, SC: 0.9620, Avg: 0.9515, batch_loss: 0.6516, loss: 0.5944 ||: 100%|##########| 216/216 [00:20<00:00, 10.56it/s]
+2024-07-01 00:24:52,818 - INFO - tqdm - NullAccuracy: 0.9990, NullF1: 0.9240, Lemma: 0.9940, PosFeats: 0.9884, UD-UAS: 0.9533, UD-LAS: 0.9570, EUD-UAS: 0.8791, EUD-LAS: 0.8818, Misc: 0.9991, SS: 0.9485, SC: 0.9620, Avg: 0.9515, batch_loss: 0.6516, loss: 0.5944 ||: 100%|##########| 216/216 [00:20<00:00, 10.78it/s]
+2024-07-01 00:24:52,818 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 00:24:52,819 - INFO - tqdm - 0%|          | 0/55 [00:00<?, ?it/s]
+2024-07-01 00:24:57,707 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8603, Lemma: 0.9876, PosFeats: 0.9703, UD-UAS: 0.9338, UD-LAS: 0.9378, EUD-UAS: 0.8963, EUD-LAS: 0.9000, Misc: 0.9985, SS: 0.8943, SC: 0.9051, Avg: 0.9360, batch_loss: 0.0907, loss: 1.9810 ||: 100%|##########| 55/55 [00:04<00:00, 13.02it/s]
+2024-07-01 00:24:57,707 - INFO - tqdm - NullAccuracy: 0.9981, NullF1: 0.8603, Lemma: 0.9876, PosFeats: 0.9703, UD-UAS: 0.9338, UD-LAS: 0.9378, EUD-UAS: 0.8963, EUD-LAS: 0.9000, Misc: 0.9985, SS: 0.8943, SC: 0.9051, Avg: 0.9360, batch_loss: 0.0907, loss: 1.9810 ||: 100%|##########| 55/55 [00:04<00:00, 11.25it/s]
+2024-07-01 00:24:57,708 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 00:24:57,710 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 00:24:57,710 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.951  |     0.936
+2024-07-01 00:24:57,710 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.882  |     0.900
+2024-07-01 00:24:57,710 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.879  |     0.896
+2024-07-01 00:24:57,710 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.994  |     0.988
+2024-07-01 00:24:57,711 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.999  |     0.998
+2024-07-01 00:24:57,711 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.999  |     0.998
+2024-07-01 00:24:57,711 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.924  |     0.860
+2024-07-01 00:24:57,711 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.988  |     0.970
+2024-07-01 00:24:57,711 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.962  |     0.905
+2024-07-01 00:24:57,711 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.948  |     0.894
+2024-07-01 00:24:57,711 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.957  |     0.938
+2024-07-01 00:24:57,711 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.953  |     0.934
+2024-07-01 00:24:57,711 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9252.330  |       N/A
+2024-07-01 00:24:57,711 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.594  |     1.981
+2024-07-01 00:24:57,711 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2215.156  |       N/A
+2024-07-01 00:24:58,943 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.156179
+2024-07-01 00:24:58,943 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:01:42
+2024-07-01 00:24:58,943 - INFO - allennlp.training.gradient_descent_trainer - Epoch 6/9
+2024-07-01 00:24:58,943 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
+2024-07-01 00:24:58,943 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.2G
+2024-07-01 00:24:58,944 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 00:24:58,944 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
+2024-07-01 00:25:08,964 - INFO - tqdm - NullAccuracy: 0.9995, NullF1: 0.9625, Lemma: 0.9962, PosFeats: 0.9918, UD-UAS: 0.9606, UD-LAS: 0.9636, EUD-UAS: 0.8896, EUD-LAS: 0.8918, Misc: 0.9992, SS: 0.9626, SC: 0.9744, Avg: 0.9589, batch_loss: 0.3827, loss: 0.4398 ||:  50%|#####     | 108/216 [00:10<00:10, 10.70it/s]
+2024-07-01 00:25:18,970 - INFO - tqdm - NullAccuracy: 0.9995, NullF1: 0.9615, Lemma: 0.9962, PosFeats: 0.9916, UD-UAS: 0.9609, UD-LAS: 0.9641, EUD-UAS: 0.8918, EUD-LAS: 0.8946, Misc: 0.9992, SS: 0.9617, SC: 0.9742, Avg: 0.9593, batch_loss: 0.3939, loss: 0.4446 ||: 100%|##########| 216/216 [00:20<00:00, 10.53it/s]
+2024-07-01 00:25:18,970 - INFO - tqdm - NullAccuracy: 0.9995, NullF1: 0.9615, Lemma: 0.9962, PosFeats: 0.9916, UD-UAS: 0.9609, UD-LAS: 0.9641, EUD-UAS: 0.8918, EUD-LAS: 0.8946, Misc: 0.9992, SS: 0.9617, SC: 0.9742, Avg: 0.9593, batch_loss: 0.3939, loss: 0.4446 ||: 100%|##########| 216/216 [00:20<00:00, 10.79it/s]
+2024-07-01 00:25:18,971 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 00:25:18,972 - INFO - tqdm - 0%|          | 0/55 [00:00<?, ?it/s]
+2024-07-01 00:25:23,802 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8566, Lemma: 0.9876, PosFeats: 0.9717, UD-UAS: 0.9359, UD-LAS: 0.9394, EUD-UAS: 0.8985, EUD-LAS: 0.9008, Misc: 0.9985, SS: 0.8964, SC: 0.9068, Avg: 0.9373, batch_loss: 0.3815, loss: 2.1278 ||: 100%|##########| 55/55 [00:04<00:00, 13.10it/s]
+2024-07-01 00:25:23,803 - INFO - tqdm - NullAccuracy: 0.9980, NullF1: 0.8566, Lemma: 0.9876, PosFeats: 0.9717, UD-UAS: 0.9359, UD-LAS: 0.9394, EUD-UAS: 0.8985, EUD-LAS: 0.9008, Misc: 0.9985, SS: 0.8964, SC: 0.9068, Avg: 0.9373, batch_loss: 0.3815, loss: 2.1278 ||: 100%|##########| 55/55 [00:04<00:00, 11.39it/s]
+2024-07-01 00:25:23,803 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 00:25:23,805 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 00:25:23,805 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.959  |     0.937
+2024-07-01 00:25:23,805 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.895  |     0.901
+2024-07-01 00:25:23,805 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.892  |     0.899
+2024-07-01 00:25:23,805 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.996  |     0.988
+2024-07-01 00:25:23,805 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.999  |     0.998
+2024-07-01 00:25:23,806 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     0.999  |     0.998
+2024-07-01 00:25:23,806 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.961  |     0.857
+2024-07-01 00:25:23,806 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.992  |     0.972
+2024-07-01 00:25:23,806 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.974  |     0.907
+2024-07-01 00:25:23,806 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.962  |     0.896
+2024-07-01 00:25:23,806 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.964  |     0.939
+2024-07-01 00:25:23,806 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.961  |     0.936
+2024-07-01 00:25:23,806 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9467.817  |       N/A
+2024-07-01 00:25:23,806 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.445  |     2.128
+2024-07-01 00:25:23,806 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2215.156  |       N/A
+2024-07-01 00:25:25,046 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.103493
+2024-07-01 00:25:25,047 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:01:17
+2024-07-01 00:25:25,047 - INFO - allennlp.training.gradient_descent_trainer - Epoch 7/9
+2024-07-01 00:25:25,047 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
+2024-07-01 00:25:25,047 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
+2024-07-01 00:25:25,048 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 00:25:25,048 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
+2024-07-01 00:25:35,157 - INFO - tqdm - NullAccuracy: 0.9997, NullF1: 0.9758, Lemma: 0.9977, PosFeats: 0.9939, UD-UAS: 0.9662, UD-LAS: 0.9693, EUD-UAS: 0.8991, EUD-LAS: 0.9026, Misc: 0.9994, SS: 0.9736, SC: 0.9830, Avg: 0.9650, batch_loss: 0.3105, loss: 0.3315 ||:  50%|#####     | 108/216 [00:10<00:09, 10.87it/s]
+2024-07-01 00:25:45,126 - INFO - tqdm - NullAccuracy: 0.9996, NullF1: 0.9681, Lemma: 0.9975, PosFeats: 0.9938, UD-UAS: 0.9660, UD-LAS: 0.9691, EUD-UAS: 0.9003, EUD-LAS: 0.9031, Misc: 0.9994, SS: 0.9725, SC: 0.9821, Avg: 0.9649, batch_loss: 0.2492, loss: 0.3401 ||: 100%|##########| 216/216 [00:20<00:00, 11.00it/s]
+2024-07-01 00:25:45,126 - INFO - tqdm - NullAccuracy: 0.9996, NullF1: 0.9681, Lemma: 0.9975, PosFeats: 0.9938, UD-UAS: 0.9660, UD-LAS: 0.9691, EUD-UAS: 0.9003, EUD-LAS: 0.9031, Misc: 0.9994, SS: 0.9725, SC: 0.9821, Avg: 0.9649, batch_loss: 0.2492, loss: 0.3401 ||: 100%|##########| 216/216 [00:20<00:00, 10.76it/s]
+2024-07-01 00:25:45,127 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 00:25:45,127 - INFO - tqdm - 0%|          | 0/55 [00:00<?, ?it/s]
+2024-07-01 00:25:49,946 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8667, Lemma: 0.9881, PosFeats: 0.9725, UD-UAS: 0.9365, UD-LAS: 0.9402, EUD-UAS: 0.9013, EUD-LAS: 0.9043, Misc: 0.9986, SS: 0.8987, SC: 0.9090, Avg: 0.9388, batch_loss: 0.3991, loss: 2.3055 ||: 100%|##########| 55/55 [00:04<00:00, 13.14it/s]
+2024-07-01 00:25:49,946 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8667, Lemma: 0.9881, PosFeats: 0.9725, UD-UAS: 0.9365, UD-LAS: 0.9402, EUD-UAS: 0.9013, EUD-LAS: 0.9043, Misc: 0.9986, SS: 0.8987, SC: 0.9090, Avg: 0.9388, batch_loss: 0.3991, loss: 2.3055 ||: 100%|##########| 55/55 [00:04<00:00, 11.41it/s]
+2024-07-01 00:25:49,946 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 00:25:49,949 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 00:25:49,949 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.965  |     0.939
+2024-07-01 00:25:49,949 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.903  |     0.904
+2024-07-01 00:25:49,949 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.900  |     0.901
+2024-07-01 00:25:49,950 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.997  |     0.988
+2024-07-01 00:25:49,950 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.999  |     0.999
+2024-07-01 00:25:49,950 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     1.000  |     0.998
+2024-07-01 00:25:49,950 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.968  |     0.867
+2024-07-01 00:25:49,950 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.994  |     0.973
+2024-07-01 00:25:49,950 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.982  |     0.909
+2024-07-01 00:25:49,950 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.973  |     0.899
+2024-07-01 00:25:49,950 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.969  |     0.940
+2024-07-01 00:25:49,950 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.966  |     0.937
+2024-07-01 00:25:49,950 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9252.353  |       N/A
+2024-07-01 00:25:49,950 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.340  |     2.305
+2024-07-01 00:25:49,950 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2215.156  |       N/A
+2024-07-01 00:25:51,184 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.137606
+2024-07-01 00:25:51,184 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:00:51
+2024-07-01 00:25:51,184 - INFO - allennlp.training.gradient_descent_trainer - Epoch 8/9
+2024-07-01 00:25:51,184 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
+2024-07-01 00:25:51,185 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.7G
+2024-07-01 00:25:51,185 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 00:25:51,185 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
+2024-07-01 00:26:01,204 - INFO - tqdm - NullAccuracy: 0.9997, NullF1: 0.9809, Lemma: 0.9982, PosFeats: 0.9952, UD-UAS: 0.9706, UD-LAS: 0.9739, EUD-UAS: 0.9073, EUD-LAS: 0.9101, Misc: 0.9995, SS: 0.9805, SC: 0.9876, Avg: 0.9692, batch_loss: 0.2796, loss: 0.2708 ||:  50%|#####     | 108/216 [00:10<00:10, 10.80it/s]
+2024-07-01 00:26:11,290 - INFO - tqdm - NullAccuracy: 0.9997, NullF1: 0.9785, Lemma: 0.9983, PosFeats: 0.9954, UD-UAS: 0.9710, UD-LAS: 0.9741, EUD-UAS: 0.9079, EUD-LAS: 0.9106, Misc: 0.9995, SS: 0.9803, SC: 0.9877, Avg: 0.9694, batch_loss: 0.2431, loss: 0.2675 ||: 100%|##########| 216/216 [00:20<00:00, 10.82it/s]
+2024-07-01 00:26:11,291 - INFO - tqdm - NullAccuracy: 0.9997, NullF1: 0.9785, Lemma: 0.9983, PosFeats: 0.9954, UD-UAS: 0.9710, UD-LAS: 0.9741, EUD-UAS: 0.9079, EUD-LAS: 0.9106, Misc: 0.9995, SS: 0.9803, SC: 0.9877, Avg: 0.9694, batch_loss: 0.2431, loss: 0.2675 ||: 100%|##########| 216/216 [00:20<00:00, 10.74it/s]
+2024-07-01 00:26:11,291 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 00:26:11,292 - INFO - tqdm - 0%|          | 0/55 [00:00<?, ?it/s]
+2024-07-01 00:26:16,103 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8635, Lemma: 0.9889, PosFeats: 0.9727, UD-UAS: 0.9373, UD-LAS: 0.9412, EUD-UAS: 0.9053, EUD-LAS: 0.9077, Misc: 0.9986, SS: 0.8997, SC: 0.9090, Avg: 0.9400, batch_loss: 0.1849, loss: 2.4059 ||: 100%|##########| 55/55 [00:04<00:00, 13.15it/s]
+2024-07-01 00:26:16,103 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8635, Lemma: 0.9889, PosFeats: 0.9727, UD-UAS: 0.9373, UD-LAS: 0.9412, EUD-UAS: 0.9053, EUD-LAS: 0.9077, Misc: 0.9986, SS: 0.8997, SC: 0.9090, Avg: 0.9400, batch_loss: 0.1849, loss: 2.4059 ||: 100%|##########| 55/55 [00:04<00:00, 11.43it/s]
+2024-07-01 00:26:16,104 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 00:26:16,106 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 00:26:16,106 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.969  |     0.940
+2024-07-01 00:26:16,106 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.911  |     0.908
+2024-07-01 00:26:16,106 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.908  |     0.905
+2024-07-01 00:26:16,106 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.998  |     0.989
+2024-07-01 00:26:16,106 - INFO - allennlp.training.callbacks.console_logger - Misc               |     0.999  |     0.999
+2024-07-01 00:26:16,106 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     1.000  |     0.998
+2024-07-01 00:26:16,106 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.979  |     0.863
+2024-07-01 00:26:16,107 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.995  |     0.973
+2024-07-01 00:26:16,107 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.988  |     0.909
+2024-07-01 00:26:16,107 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.980  |     0.900
+2024-07-01 00:26:16,107 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.974  |     0.941
+2024-07-01 00:26:16,107 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.971  |     0.937
+2024-07-01 00:26:16,107 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9954.991  |       N/A
+2024-07-01 00:26:16,107 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.267  |     2.406
+2024-07-01 00:26:16,107 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2215.156  |       N/A
+2024-07-01 00:26:17,351 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.166644
+2024-07-01 00:26:17,351 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:00:25
+2024-07-01 00:26:17,351 - INFO - allennlp.training.gradient_descent_trainer - Epoch 9/9
+2024-07-01 00:26:17,351 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 2.2G
+2024-07-01 00:26:17,351 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 9.0G
+2024-07-01 00:26:17,352 - INFO - allennlp.training.gradient_descent_trainer - Training
+2024-07-01 00:26:17,352 - INFO - tqdm - 0%|          | 0/216 [00:00<?, ?it/s]
+2024-07-01 00:26:27,415 - INFO - tqdm - NullAccuracy: 0.9997, NullF1: 0.9797, Lemma: 0.9986, PosFeats: 0.9964, UD-UAS: 0.9755, UD-LAS: 0.9779, EUD-UAS: 0.9133, EUD-LAS: 0.9149, Misc: 0.9996, SS: 0.9853, SC: 0.9920, Avg: 0.9726, batch_loss: 0.2203, loss: 0.2139 ||:  50%|#####     | 109/216 [00:10<00:09, 10.77it/s]
+2024-07-01 00:26:37,532 - INFO - tqdm - NullAccuracy: 0.9998, NullF1: 0.9817, Lemma: 0.9985, PosFeats: 0.9964, UD-UAS: 0.9752, UD-LAS: 0.9778, EUD-UAS: 0.9143, EUD-LAS: 0.9161, Misc: 0.9996, SS: 0.9858, SC: 0.9918, Avg: 0.9728, batch_loss: 0.2146, loss: 0.2136 ||:  98%|#########7| 211/216 [00:20<00:00, 10.48it/s]
+2024-07-01 00:26:37,909 - INFO - tqdm - NullAccuracy: 0.9997, NullF1: 0.9816, Lemma: 0.9985, PosFeats: 0.9964, UD-UAS: 0.9752, UD-LAS: 0.9778, EUD-UAS: 0.9142, EUD-LAS: 0.9161, Misc: 0.9996, SS: 0.9858, SC: 0.9918, Avg: 0.9728, batch_loss: 0.2080, loss: 0.2137 ||: 100%|#########9| 215/216 [00:20<00:00, 10.55it/s]
+2024-07-01 00:26:38,004 - INFO - tqdm - NullAccuracy: 0.9997, NullF1: 0.9818, Lemma: 0.9985, PosFeats: 0.9964, UD-UAS: 0.9752, UD-LAS: 0.9779, EUD-UAS: 0.9142, EUD-LAS: 0.9161, Misc: 0.9996, SS: 0.9859, SC: 0.9918, Avg: 0.9728, batch_loss: 0.1761, loss: 0.2135 ||: 100%|##########| 216/216 [00:20<00:00, 10.46it/s]
+2024-07-01 00:26:38,004 - INFO - allennlp.training.gradient_descent_trainer - Validating
+2024-07-01 00:26:38,005 - INFO - tqdm - 0%|          | 0/55 [00:00<?, ?it/s]
+2024-07-01 00:26:42,803 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8667, Lemma: 0.9891, PosFeats: 0.9729, UD-UAS: 0.9385, UD-LAS: 0.9421, EUD-UAS: 0.9076, EUD-LAS: 0.9099, Misc: 0.9986, SS: 0.9005, SC: 0.9100, Avg: 0.9410, batch_loss: 0.1555, loss: 2.5291 ||: 100%|##########| 55/55 [00:04<00:00, 13.18it/s]
+2024-07-01 00:26:42,803 - INFO - tqdm - NullAccuracy: 0.9982, NullF1: 0.8667, Lemma: 0.9891, PosFeats: 0.9729, UD-UAS: 0.9385, UD-LAS: 0.9421, EUD-UAS: 0.9076, EUD-LAS: 0.9099, Misc: 0.9986, SS: 0.9005, SC: 0.9100, Avg: 0.9410, batch_loss: 0.1555, loss: 2.5291 ||: 100%|##########| 55/55 [00:04<00:00, 11.46it/s]
+2024-07-01 00:26:42,804 - INFO - allennlp.training.learning_rate_schedulers.slanted_triangular - Gradual unfreezing finished. Training all layers.
+2024-07-01 00:26:42,806 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - Avg                |     0.973  |     0.941
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - EUD-LAS            |     0.916  |     0.910
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - EUD-UAS            |     0.914  |     0.908
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - Lemma              |     0.999  |     0.989
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - Misc               |     1.000  |     0.999
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - NullAccuracy       |     1.000  |     0.998
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - NullF1             |     0.982  |     0.867
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - PosFeats           |     0.996  |     0.973
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - SC                 |     0.992  |     0.910
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - SS                 |     0.986  |     0.900
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - UD-LAS             |     0.978  |     0.942
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - UD-UAS             |     0.975  |     0.939
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  9251.691  |       N/A
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.213  |     2.529
+2024-07-01 00:26:42,807 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  2215.156  |       N/A
+2024-07-01 00:26:44,054 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:00:26.703147
+2024-07-01 00:26:44,055 - INFO - allennlp.common.util - Metrics: {
   "best_epoch": 9,
-  "peak_worker_0_memory_MB": 2256.203125,
-  "peak_gpu_0_memory_MB": 9254.5361328125,
-  "training_duration": "0:04:18.413592",
+  "peak_worker_0_memory_MB": 2215.15625,
+  "peak_gpu_0_memory_MB": 9954.99072265625,
+  "training_duration": "0:04:18.989118",
   "epoch": 9,
-  "training_NullAccuracy": 0.9997573698896033,
-  "training_NullF1": 0.982193112373352,
-  "training_Lemma": 0.998857814618637,
-  "training_PosFeats": 0.9964056210251275,
-  "training_UD-UAS": 0.9738965286733228,
-  "training_UD-LAS": 0.9764566028854176,
-  "training_EUD-UAS": 0.9143240298969594,
-  "training_EUD-LAS": 0.9165614583504466,
-  "training_Misc": 0.9995026228355803,
-  "training_SS": 0.9849924730255785,
-  "training_SC": 0.9916904855064295,
-  "training_Avg": 0.9725208485352778,
-  "training_loss": 0.2139666090822882,
-  "training_worker_0_memory_MB": 2256.203125,
-  "training_gpu_0_memory_MB": 9252.28955078125,
-  "validation_NullAccuracy": 0.9980704293294742,
-  "validation_NullF1": 0.8560606241226196,
-  "validation_Lemma": 0.9892992751121851,
-  "validation_PosFeats": 0.9742772052816067,
-  "validation_UD-UAS": 0.934723362622295,
-  "validation_UD-LAS": 0.9373089390794104,
-  "validation_EUD-UAS": 0.9052826060226811,
-  "validation_EUD-LAS": 0.9081631594075775,
-  "validation_Misc": 0.9986031679097593,
-  "validation_SS": 0.8992436022454735,
-  "validation_SC": 0.9094431120364758,
-  "validation_Avg": 0.9395938255241627,
-  "validation_loss": 2.6025705889419273,
-  "best_validation_NullAccuracy": 0.9980704293294742,
-  "best_validation_NullF1": 0.8560606241226196,
-  "best_validation_Lemma": 0.9892992751121851,
-  "best_validation_PosFeats": 0.9742772052816067,
-  "best_validation_UD-UAS": 0.934723362622295,
-  "best_validation_UD-LAS": 0.9373089390794104,
-  "best_validation_EUD-UAS": 0.9052826060226811,
-  "best_validation_EUD-LAS": 0.9081631594075775,
-  "best_validation_Misc": 0.9986031679097593,
-  "best_validation_SS": 0.8992436022454735,
-  "best_validation_SC": 0.9094431120364758,
-  "best_validation_Avg": 0.9395938255241627,
-  "best_validation_loss": 2.6025705889419273
+  "training_NullAccuracy": 0.9997498556859726,
+  "training_NullF1": 0.9818012118339539,
+  "training_Lemma": 0.9985368931126593,
+  "training_PosFeats": 0.9964017991004498,
+  "training_UD-UAS": 0.9751960118337036,
+  "training_UD-LAS": 0.9778575443591181,
+  "training_EUD-UAS": 0.9142350388823146,
+  "training_EUD-LAS": 0.916079434219797,
+  "training_Misc": 0.9996201899050475,
+  "training_SS": 0.9858604031317675,
+  "training_SC": 0.9918440779610195,
+  "training_Avg": 0.972847932500653,
+  "training_loss": 0.2134966488789629,
+  "training_worker_0_memory_MB": 2215.15625,
+  "training_gpu_0_memory_MB": 9251.69140625,
+  "validation_NullAccuracy": 0.9982139313355824,
+  "validation_NullF1": 0.8666666150093079,
+  "validation_Lemma": 0.9891402949485525,
+  "validation_PosFeats": 0.9729354257782351,
+  "validation_UD-UAS": 0.9385387548195444,
+  "validation_UD-LAS": 0.9421456589698549,
+  "validation_EUD-UAS": 0.9076088498991962,
+  "validation_EUD-LAS": 0.9099454864498977,
+  "validation_Misc": 0.9985850270131207,
+  "validation_SS": 0.9004630820684333,
+  "validation_SC": 0.9100334448160535,
+  "validation_Avg": 0.9410440027514321,
+  "validation_loss": 2.529109188643369,
+  "best_validation_NullAccuracy": 0.9982139313355824,
+  "best_validation_NullF1": 0.8666666150093079,
+  "best_validation_Lemma": 0.9891402949485525,
+  "best_validation_PosFeats": 0.9729354257782351,
+  "best_validation_UD-UAS": 0.9385387548195444,
+  "best_validation_UD-LAS": 0.9421456589698549,
+  "best_validation_EUD-UAS": 0.9076088498991962,
+  "best_validation_EUD-LAS": 0.9099454864498977,
+  "best_validation_Misc": 0.9985850270131207,
+  "best_validation_SS": 0.9004630820684333,
+  "best_validation_SC": 0.9100334448160535,
+  "best_validation_Avg": 0.9410440027514321,
+  "best_validation_loss": 2.529109188643369
 }
-2024-06-29 20:40:56,260 - INFO - allennlp.models.archival - archiving weights and vocabulary to distilbert/finetuned/model.tar.gz
+2024-07-01 00:26:44,056 - INFO - allennlp.models.archival - archiving weights and vocabulary to serialization/distilbert/finetuned/model.tar.gz