Upload 4 files

Browse files

Files changed (4) hide show

config.json +39 -0
model.safetensors +3 -0
trainer_state.json +336 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "xlm-roberta-large",
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "contradiction",
+    "1": "neutral",
+    "2": "entailment"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "contradiction": 0,
+    "entailment": 2,
+    "neutral": 1
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "pretraining_tp": 1,
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
+  "type_vocab_size": 1,
+  "use_cache": false,
+  "vocab_size": 250002
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fbc92ac988b4eec85a8ba9c6f9b76e4ebee1f12b30d3270c9d2269af9af4580
+size 2239622772

trainer_state.json ADDED Viewed

	@@ -0,0 +1,336 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.5347539113428944,
+  "eval_steps": 100,
+  "global_step": 2100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "grad_norm": 13.311190605163574,
+      "learning_rate": 4.991511756217638e-07,
+      "loss": 1.1106,
+      "step": 100
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 1.0980943441390991,
+      "eval_runtime": 444.5552,
+      "eval_samples_per_second": 22.116,
+      "eval_steps_per_second": 1.383,
+      "step": 100
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 124.89850616455078,
+      "learning_rate": 4.983023512435277e-07,
+      "loss": 1.1058,
+      "step": 200
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 1.0958582162857056,
+      "eval_runtime": 445.0884,
+      "eval_samples_per_second": 22.09,
+      "eval_steps_per_second": 1.382,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 4.540226459503174,
+      "learning_rate": 4.974535268652916e-07,
+      "loss": 1.1041,
+      "step": 300
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 1.0949292182922363,
+      "eval_runtime": 444.1007,
+      "eval_samples_per_second": 22.139,
+      "eval_steps_per_second": 1.385,
+      "step": 300
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 2.7475616931915283,
+      "learning_rate": 4.966047024870554e-07,
+      "loss": 1.1015,
+      "step": 400
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 1.0947699546813965,
+      "eval_runtime": 444.3765,
+      "eval_samples_per_second": 22.125,
+      "eval_steps_per_second": 1.384,
+      "step": 400
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 47.300941467285156,
+      "learning_rate": 4.957558781088193e-07,
+      "loss": 1.0996,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 1.0897258520126343,
+      "eval_runtime": 444.8131,
+      "eval_samples_per_second": 22.104,
+      "eval_steps_per_second": 1.383,
+      "step": 500
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 5.65737771987915,
+      "learning_rate": 4.949070537305832e-07,
+      "loss": 1.0994,
+      "step": 600
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 1.0869251489639282,
+      "eval_runtime": 444.3561,
+      "eval_samples_per_second": 22.126,
+      "eval_steps_per_second": 1.384,
+      "step": 600
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 14.847755432128906,
+      "learning_rate": 4.94058229352347e-07,
+      "loss": 1.0954,
+      "step": 700
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 1.0760304927825928,
+      "eval_runtime": 444.5382,
+      "eval_samples_per_second": 22.117,
+      "eval_steps_per_second": 1.383,
+      "step": 700
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 11.20052433013916,
+      "learning_rate": 4.932094049741109e-07,
+      "loss": 1.0884,
+      "step": 800
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.054417371749878,
+      "eval_runtime": 444.2308,
+      "eval_samples_per_second": 22.133,
+      "eval_steps_per_second": 1.384,
+      "step": 800
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 9.804169654846191,
+      "learning_rate": 4.923605805958747e-07,
+      "loss": 1.076,
+      "step": 900
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 1.027961254119873,
+      "eval_runtime": 444.5711,
+      "eval_samples_per_second": 22.116,
+      "eval_steps_per_second": 1.383,
+      "step": 900
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 8.616690635681152,
+      "learning_rate": 4.915117562176386e-07,
+      "loss": 1.0548,
+      "step": 1000
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 1.0113487243652344,
+      "eval_runtime": 444.7544,
+      "eval_samples_per_second": 22.107,
+      "eval_steps_per_second": 1.383,
+      "step": 1000
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 26.81256103515625,
+      "learning_rate": 4.906629318394024e-07,
+      "loss": 1.0409,
+      "step": 1100
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.9771223664283752,
+      "eval_runtime": 444.4918,
+      "eval_samples_per_second": 22.12,
+      "eval_steps_per_second": 1.384,
+      "step": 1100
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 37.97452163696289,
+      "learning_rate": 4.898141074611662e-07,
+      "loss": 1.0217,
+      "step": 1200
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 0.950868546962738,
+      "eval_runtime": 444.7062,
+      "eval_samples_per_second": 22.109,
+      "eval_steps_per_second": 1.383,
+      "step": 1200
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 11.764458656311035,
+      "learning_rate": 4.889652830829301e-07,
+      "loss": 1.0015,
+      "step": 1300
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.9277215600013733,
+      "eval_runtime": 444.451,
+      "eval_samples_per_second": 22.122,
+      "eval_steps_per_second": 1.384,
+      "step": 1300
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 20.98186492919922,
+      "learning_rate": 4.88116458704694e-07,
+      "loss": 0.9817,
+      "step": 1400
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 0.9151755571365356,
+      "eval_runtime": 444.2262,
+      "eval_samples_per_second": 22.133,
+      "eval_steps_per_second": 1.384,
+      "step": 1400
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 19.44089126586914,
+      "learning_rate": 4.872676343264578e-07,
+      "loss": 0.9597,
+      "step": 1500
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.8940967321395874,
+      "eval_runtime": 444.5986,
+      "eval_samples_per_second": 22.114,
+      "eval_steps_per_second": 1.383,
+      "step": 1500
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 70.98310089111328,
+      "learning_rate": 4.864188099482217e-07,
+      "loss": 0.9412,
+      "step": 1600
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 0.8873820304870605,
+      "eval_runtime": 444.6432,
+      "eval_samples_per_second": 22.112,
+      "eval_steps_per_second": 1.383,
+      "step": 1600
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 26.77646827697754,
+      "learning_rate": 4.855699855699855e-07,
+      "loss": 0.9246,
+      "step": 1700
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.8573471903800964,
+      "eval_runtime": 444.4677,
+      "eval_samples_per_second": 22.121,
+      "eval_steps_per_second": 1.384,
+      "step": 1700
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 14.278304100036621,
+      "learning_rate": 4.847211611917494e-07,
+      "loss": 0.9028,
+      "step": 1800
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.8476628065109253,
+      "eval_runtime": 444.3449,
+      "eval_samples_per_second": 22.127,
+      "eval_steps_per_second": 1.384,
+      "step": 1800
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 10.93651008605957,
+      "learning_rate": 4.838723368135133e-07,
+      "loss": 0.8823,
+      "step": 1900
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.8142721652984619,
+      "eval_runtime": 444.2479,
+      "eval_samples_per_second": 22.132,
+      "eval_steps_per_second": 1.384,
+      "step": 1900
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 20.362102508544922,
+      "learning_rate": 4.830235124352771e-07,
+      "loss": 0.8707,
+      "step": 2000
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.7884088158607483,
+      "eval_runtime": 443.9954,
+      "eval_samples_per_second": 22.144,
+      "eval_steps_per_second": 1.385,
+      "step": 2000
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 71.8848876953125,
+      "learning_rate": 4.82174688057041e-07,
+      "loss": 0.841,
+      "step": 2100
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 0.7523934245109558,
+      "eval_runtime": 443.8003,
+      "eval_samples_per_second": 22.154,
+      "eval_steps_per_second": 1.386,
+      "step": 2100
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 58905,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 100,
+  "total_flos": 1.7850550446351974e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08d2f8a0e6b970cb6d17806c3d5bf9b9df0041e8c6826265ab346e5555942920
+size 5176