Upload 12 files

Browse files

Initial model upload.

Files changed (13) hide show

.gitattributes +1 -0
added_tokens.json +4 -0
config.json +29 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +15 -0
tokenizer.json +3 -0
tokenizer_config.json +72 -0
trainer_state.json +813 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<__morph-boundary>": 401145,
+  "<__word-separator>": 401146
+}

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "cis-lmu/glot500-base",
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 401147
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c2b3e59b9c810086e681f5d08c06704e04c87fa8b75a3a7931e141f643f5716
+size 1576522712

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8667054bae25a12e530bfec7f1155d1a92e8c1c9ad90f28b68d90eca2b14f79
+size 3153162379

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2cdb91a90839ea4b7d4d010f78a9a8535a34c8a538897088563095b2f318912
+size 14503

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1646533c2aceb8c9a431ced7c499c59dcf0c10e4b255b4bb392bb3eced34873
+size 623

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a313a26470baedaede322622492f2a542aa41527ddc5d40de444e945ad3c613
+size 7658320

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09e84756d5dd4ca37bcfdc3f2a70bcf73acbd3c639db7497b29e251cb2e25b94
+size 26910681

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,72 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "401144": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "401145": {
+      "content": "<__morph-boundary>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "401146": {
+      "content": "<__word-separator>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>",
+  "use_fast": true
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,813 @@

+{
+  "best_metric": 0.9824038982133189,
+  "best_model_checkpoint": "/p/project/trustllm-eu/stenlund1/LLMSegm_iu/out/glot500-iu-morph-unamb-sup-6/checkpoint-1500",
+  "epoch": 4.132231404958677,
+  "eval_steps": 50,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06887052341597796,
+      "grad_norm": 0.25278759002685547,
+      "learning_rate": 1.9944289693593316e-05,
+      "loss": 0.6929,
+      "step": 25
+    },
+    {
+      "epoch": 0.13774104683195593,
+      "grad_norm": 3.6986641883850098,
+      "learning_rate": 1.966573816155989e-05,
+      "loss": 0.6275,
+      "step": 50
+    },
+    {
+      "epoch": 0.13774104683195593,
+      "eval_accuracy": 0.7771941343838914,
+      "eval_f1": 0.7581564776686728,
+      "eval_loss": 0.49594685435295105,
+      "eval_precision": 0.6763687742847051,
+      "eval_recall": 0.8624448247905594,
+      "eval_runtime": 4.0112,
+      "eval_samples_per_second": 6834.373,
+      "eval_steps_per_second": 6.731,
+      "step": 50
+    },
+    {
+      "epoch": 0.2066115702479339,
+      "grad_norm": 3.397982120513916,
+      "learning_rate": 1.9387186629526465e-05,
+      "loss": 0.4712,
+      "step": 75
+    },
+    {
+      "epoch": 0.27548209366391185,
+      "grad_norm": 3.2428324222564697,
+      "learning_rate": 1.910863509749304e-05,
+      "loss": 0.3489,
+      "step": 100
+    },
+    {
+      "epoch": 0.27548209366391185,
+      "eval_accuracy": 0.9177062814620267,
+      "eval_f1": 0.898533777098138,
+      "eval_loss": 0.24391423165798187,
+      "eval_precision": 0.8972424324081559,
+      "eval_recall": 0.8998288442482659,
+      "eval_runtime": 3.5257,
+      "eval_samples_per_second": 7775.49,
+      "eval_steps_per_second": 7.658,
+      "step": 100
+    },
+    {
+      "epoch": 0.3443526170798898,
+      "grad_norm": 5.30737829208374,
+      "learning_rate": 1.883008356545961e-05,
+      "loss": 0.2683,
+      "step": 125
+    },
+    {
+      "epoch": 0.4132231404958678,
+      "grad_norm": 3.5402088165283203,
+      "learning_rate": 1.8551532033426184e-05,
+      "loss": 0.2206,
+      "step": 150
+    },
+    {
+      "epoch": 0.4132231404958678,
+      "eval_accuracy": 0.9466695848836361,
+      "eval_f1": 0.9355492858402398,
+      "eval_loss": 0.15823155641555786,
+      "eval_precision": 0.916083916083916,
+      "eval_recall": 0.9558598324475273,
+      "eval_runtime": 3.8577,
+      "eval_samples_per_second": 7106.225,
+      "eval_steps_per_second": 6.999,
+      "step": 150
+    },
+    {
+      "epoch": 0.4820936639118457,
+      "grad_norm": 3.316082239151001,
+      "learning_rate": 1.827298050139276e-05,
+      "loss": 0.1807,
+      "step": 175
+    },
+    {
+      "epoch": 0.5509641873278237,
+      "grad_norm": 2.592745065689087,
+      "learning_rate": 1.7994428969359333e-05,
+      "loss": 0.1541,
+      "step": 200
+    },
+    {
+      "epoch": 0.5509641873278237,
+      "eval_accuracy": 0.9585977967461881,
+      "eval_f1": 0.9495398568443516,
+      "eval_loss": 0.12743310630321503,
+      "eval_precision": 0.9374122191011236,
+      "eval_recall": 0.9619854067201153,
+      "eval_runtime": 3.4893,
+      "eval_samples_per_second": 7856.68,
+      "eval_steps_per_second": 7.738,
+      "step": 200
+    },
+    {
+      "epoch": 0.6198347107438017,
+      "grad_norm": 2.1011128425598145,
+      "learning_rate": 1.7715877437325907e-05,
+      "loss": 0.1369,
+      "step": 225
+    },
+    {
+      "epoch": 0.6887052341597796,
+      "grad_norm": 1.8149715662002563,
+      "learning_rate": 1.743732590529248e-05,
+      "loss": 0.1258,
+      "step": 250
+    },
+    {
+      "epoch": 0.6887052341597796,
+      "eval_accuracy": 0.9647990078062304,
+      "eval_f1": 0.9563289134271621,
+      "eval_loss": 0.10787822306156158,
+      "eval_precision": 0.9608948708621317,
+      "eval_recall": 0.9518061435906675,
+      "eval_runtime": 3.4856,
+      "eval_samples_per_second": 7864.85,
+      "eval_steps_per_second": 7.746,
+      "step": 250
+    },
+    {
+      "epoch": 0.7575757575757576,
+      "grad_norm": 2.8485476970672607,
+      "learning_rate": 1.7158774373259056e-05,
+      "loss": 0.1107,
+      "step": 275
+    },
+    {
+      "epoch": 0.8264462809917356,
+      "grad_norm": 1.723015546798706,
+      "learning_rate": 1.688022284122563e-05,
+      "loss": 0.1085,
+      "step": 300
+    },
+    {
+      "epoch": 0.8264462809917356,
+      "eval_accuracy": 0.9711826074268621,
+      "eval_f1": 0.9645421903052065,
+      "eval_loss": 0.09259311854839325,
+      "eval_precision": 0.9611772072636193,
+      "eval_recall": 0.9679308170435096,
+      "eval_runtime": 3.4737,
+      "eval_samples_per_second": 7891.819,
+      "eval_steps_per_second": 7.773,
+      "step": 300
+    },
+    {
+      "epoch": 0.8953168044077136,
+      "grad_norm": 1.7039345502853394,
+      "learning_rate": 1.66016713091922e-05,
+      "loss": 0.1007,
+      "step": 325
+    },
+    {
+      "epoch": 0.9641873278236914,
+      "grad_norm": 2.643916368484497,
+      "learning_rate": 1.6323119777158775e-05,
+      "loss": 0.1001,
+      "step": 350
+    },
+    {
+      "epoch": 0.9641873278236914,
+      "eval_accuracy": 0.9737725249872328,
+      "eval_f1": 0.9676897496966701,
+      "eval_loss": 0.08496326208114624,
+      "eval_precision": 0.9654770444763271,
+      "eval_recall": 0.969912620484641,
+      "eval_runtime": 3.877,
+      "eval_samples_per_second": 7071.012,
+      "eval_steps_per_second": 6.964,
+      "step": 350
+    },
+    {
+      "epoch": 1.0330578512396693,
+      "grad_norm": 2.7803874015808105,
+      "learning_rate": 1.604456824512535e-05,
+      "loss": 0.0872,
+      "step": 375
+    },
+    {
+      "epoch": 1.1019283746556474,
+      "grad_norm": 1.6734216213226318,
+      "learning_rate": 1.5766016713091924e-05,
+      "loss": 0.0803,
+      "step": 400
+    },
+    {
+      "epoch": 1.1019283746556474,
+      "eval_accuracy": 0.9746479900780624,
+      "eval_f1": 0.968868980963046,
+      "eval_loss": 0.07618524879217148,
+      "eval_precision": 0.9635602280826799,
+      "eval_recall": 0.9742365552652914,
+      "eval_runtime": 3.4865,
+      "eval_samples_per_second": 7862.946,
+      "eval_steps_per_second": 7.744,
+      "step": 400
+    },
+    {
+      "epoch": 1.1707988980716253,
+      "grad_norm": 1.4769816398620605,
+      "learning_rate": 1.5487465181058498e-05,
+      "loss": 0.0794,
+      "step": 425
+    },
+    {
+      "epoch": 1.2396694214876034,
+      "grad_norm": 1.9178351163864136,
+      "learning_rate": 1.520891364902507e-05,
+      "loss": 0.0746,
+      "step": 450
+    },
+    {
+      "epoch": 1.2396694214876034,
+      "eval_accuracy": 0.976143576274896,
+      "eval_f1": 0.9705113175218685,
+      "eval_loss": 0.07501044124364853,
+      "eval_precision": 0.9715626974812674,
+      "eval_recall": 0.9694622106116566,
+      "eval_runtime": 3.483,
+      "eval_samples_per_second": 7870.76,
+      "eval_steps_per_second": 7.752,
+      "step": 450
+    },
+    {
+      "epoch": 1.3085399449035813,
+      "grad_norm": 1.5861995220184326,
+      "learning_rate": 1.4930362116991646e-05,
+      "loss": 0.0712,
+      "step": 475
+    },
+    {
+      "epoch": 1.3774104683195592,
+      "grad_norm": 1.4486507177352905,
+      "learning_rate": 1.4651810584958219e-05,
+      "loss": 0.0628,
+      "step": 500
+    },
+    {
+      "epoch": 1.3774104683195592,
+      "eval_accuracy": 0.9772379076384329,
+      "eval_f1": 0.9720254640007173,
+      "eval_loss": 0.07069610804319382,
+      "eval_precision": 0.9675145024542615,
+      "eval_recall": 0.9765786866048104,
+      "eval_runtime": 3.478,
+      "eval_samples_per_second": 7882.089,
+      "eval_steps_per_second": 7.763,
+      "step": 500
+    },
+    {
+      "epoch": 1.4462809917355373,
+      "grad_norm": 1.6411774158477783,
+      "learning_rate": 1.4373259052924793e-05,
+      "loss": 0.0687,
+      "step": 525
+    },
+    {
+      "epoch": 1.5151515151515151,
+      "grad_norm": 1.1685402393341064,
+      "learning_rate": 1.4094707520891366e-05,
+      "loss": 0.0649,
+      "step": 550
+    },
+    {
+      "epoch": 1.5151515151515151,
+      "eval_accuracy": 0.9787334938352666,
+      "eval_f1": 0.9736473353523483,
+      "eval_loss": 0.06786245107650757,
+      "eval_precision": 0.9771366358192706,
+      "eval_recall": 0.9701828664084317,
+      "eval_runtime": 3.8335,
+      "eval_samples_per_second": 7151.144,
+      "eval_steps_per_second": 7.043,
+      "step": 550
+    },
+    {
+      "epoch": 1.5840220385674932,
+      "grad_norm": 1.5705974102020264,
+      "learning_rate": 1.381615598885794e-05,
+      "loss": 0.0602,
+      "step": 575
+    },
+    {
+      "epoch": 1.6528925619834711,
+      "grad_norm": 1.430296778678894,
+      "learning_rate": 1.3537604456824513e-05,
+      "loss": 0.0598,
+      "step": 600
+    },
+    {
+      "epoch": 1.6528925619834711,
+      "eval_accuracy": 0.9796089589260961,
+      "eval_f1": 0.9748390871854886,
+      "eval_loss": 0.06365057826042175,
+      "eval_precision": 0.9741813602015114,
+      "eval_recall": 0.9754977029096478,
+      "eval_runtime": 3.4734,
+      "eval_samples_per_second": 7892.464,
+      "eval_steps_per_second": 7.773,
+      "step": 600
+    },
+    {
+      "epoch": 1.721763085399449,
+      "grad_norm": 1.6765629053115845,
+      "learning_rate": 1.3259052924791087e-05,
+      "loss": 0.0588,
+      "step": 625
+    },
+    {
+      "epoch": 1.790633608815427,
+      "grad_norm": 2.7560369968414307,
+      "learning_rate": 1.2980501392757661e-05,
+      "loss": 0.0588,
+      "step": 650
+    },
+    {
+      "epoch": 1.790633608815427,
+      "eval_accuracy": 0.9799737360472751,
+      "eval_f1": 0.9752423900789177,
+      "eval_loss": 0.06402380764484406,
+      "eval_precision": 0.9764312804767925,
+      "eval_recall": 0.9740563913160977,
+      "eval_runtime": 3.4664,
+      "eval_samples_per_second": 7908.573,
+      "eval_steps_per_second": 7.789,
+      "step": 650
+    },
+    {
+      "epoch": 1.859504132231405,
+      "grad_norm": 1.4049510955810547,
+      "learning_rate": 1.2701949860724234e-05,
+      "loss": 0.0587,
+      "step": 675
+    },
+    {
+      "epoch": 1.9283746556473829,
+      "grad_norm": 1.4854605197906494,
+      "learning_rate": 1.2423398328690808e-05,
+      "loss": 0.0549,
+      "step": 700
+    },
+    {
+      "epoch": 1.9283746556473829,
+      "eval_accuracy": 0.9801926023199825,
+      "eval_f1": 0.975607564799425,
+      "eval_loss": 0.06324595212936401,
+      "eval_precision": 0.9730286738351255,
+      "eval_recall": 0.9782001621475542,
+      "eval_runtime": 3.831,
+      "eval_samples_per_second": 7155.784,
+      "eval_steps_per_second": 7.048,
+      "step": 700
+    },
+    {
+      "epoch": 1.997245179063361,
+      "grad_norm": 1.7832911014556885,
+      "learning_rate": 1.2144846796657384e-05,
+      "loss": 0.0598,
+      "step": 725
+    },
+    {
+      "epoch": 2.0661157024793386,
+      "grad_norm": 1.3163201808929443,
+      "learning_rate": 1.1866295264623957e-05,
+      "loss": 0.049,
+      "step": 750
+    },
+    {
+      "epoch": 2.0661157024793386,
+      "eval_accuracy": 0.9817611439410521,
+      "eval_f1": 0.9773939777556742,
+      "eval_loss": 0.06054531782865524,
+      "eval_precision": 0.9811200871380593,
+      "eval_recall": 0.9736960634177101,
+      "eval_runtime": 3.4659,
+      "eval_samples_per_second": 7909.629,
+      "eval_steps_per_second": 7.79,
+      "step": 750
+    },
+    {
+      "epoch": 2.1349862258953167,
+      "grad_norm": 2.2273190021514893,
+      "learning_rate": 1.1587743732590531e-05,
+      "loss": 0.0452,
+      "step": 775
+    },
+    {
+      "epoch": 2.203856749311295,
+      "grad_norm": 0.6999920010566711,
+      "learning_rate": 1.1309192200557103e-05,
+      "loss": 0.0443,
+      "step": 800
+    },
+    {
+      "epoch": 2.203856749311295,
+      "eval_accuracy": 0.982818997592471,
+      "eval_f1": 0.9788533201634265,
+      "eval_loss": 0.05351677164435387,
+      "eval_precision": 0.9757429287504475,
+      "eval_recall": 0.9819836050806233,
+      "eval_runtime": 3.4789,
+      "eval_samples_per_second": 7880.134,
+      "eval_steps_per_second": 7.761,
+      "step": 800
+    },
+    {
+      "epoch": 2.2727272727272725,
+      "grad_norm": 2.3686063289642334,
+      "learning_rate": 1.1030640668523678e-05,
+      "loss": 0.0414,
+      "step": 825
+    },
+    {
+      "epoch": 2.3415977961432506,
+      "grad_norm": 4.006628036499023,
+      "learning_rate": 1.0752089136490252e-05,
+      "loss": 0.0456,
+      "step": 850
+    },
+    {
+      "epoch": 2.3415977961432506,
+      "eval_accuracy": 0.9815057999562268,
+      "eval_f1": 0.9769765224104264,
+      "eval_loss": 0.0683741644024849,
+      "eval_precision": 0.9850732600732601,
+      "eval_recall": 0.9690118007386722,
+      "eval_runtime": 3.4666,
+      "eval_samples_per_second": 7908.086,
+      "eval_steps_per_second": 7.789,
+      "step": 850
+    },
+    {
+      "epoch": 2.4104683195592287,
+      "grad_norm": 1.687317967414856,
+      "learning_rate": 1.0473537604456825e-05,
+      "loss": 0.0459,
+      "step": 875
+    },
+    {
+      "epoch": 2.479338842975207,
+      "grad_norm": 1.9865649938583374,
+      "learning_rate": 1.0194986072423399e-05,
+      "loss": 0.0437,
+      "step": 900
+    },
+    {
+      "epoch": 2.479338842975207,
+      "eval_accuracy": 0.9822718319107026,
+      "eval_f1": 0.9782121402313279,
+      "eval_loss": 0.055423617362976074,
+      "eval_precision": 0.9736724676483712,
+      "eval_recall": 0.9827943428519953,
+      "eval_runtime": 3.8118,
+      "eval_samples_per_second": 7191.836,
+      "eval_steps_per_second": 7.083,
+      "step": 900
+    },
+    {
+      "epoch": 2.5482093663911844,
+      "grad_norm": 1.7087410688400269,
+      "learning_rate": 9.916434540389973e-06,
+      "loss": 0.0434,
+      "step": 925
+    },
+    {
+      "epoch": 2.6170798898071626,
+      "grad_norm": 1.4715299606323242,
+      "learning_rate": 9.637883008356547e-06,
+      "loss": 0.041,
+      "step": 950
+    },
+    {
+      "epoch": 2.6170798898071626,
+      "eval_accuracy": 0.9830378638651783,
+      "eval_f1": 0.9790983053894907,
+      "eval_loss": 0.05513562262058258,
+      "eval_precision": 0.9771218374304683,
+      "eval_recall": 0.9810827853346545,
+      "eval_runtime": 3.4833,
+      "eval_samples_per_second": 7870.073,
+      "eval_steps_per_second": 7.751,
+      "step": 950
+    },
+    {
+      "epoch": 2.6859504132231407,
+      "grad_norm": 1.1084128618240356,
+      "learning_rate": 9.35933147632312e-06,
+      "loss": 0.0421,
+      "step": 975
+    },
+    {
+      "epoch": 2.7548209366391183,
+      "grad_norm": 1.778534173965454,
+      "learning_rate": 9.080779944289694e-06,
+      "loss": 0.0403,
+      "step": 1000
+    },
+    {
+      "epoch": 2.7548209366391183,
+      "eval_accuracy": 0.9833296855621215,
+      "eval_f1": 0.9794283142021157,
+      "eval_loss": 0.05323425307869911,
+      "eval_precision": 0.9788554975706316,
+      "eval_recall": 0.9800018016394919,
+      "eval_runtime": 3.4664,
+      "eval_samples_per_second": 7908.452,
+      "eval_steps_per_second": 7.789,
+      "step": 1000
+    },
+    {
+      "epoch": 2.8236914600550964,
+      "grad_norm": 1.2113419771194458,
+      "learning_rate": 8.802228412256268e-06,
+      "loss": 0.0373,
+      "step": 1025
+    },
+    {
+      "epoch": 2.8925619834710745,
+      "grad_norm": 1.100354552268982,
+      "learning_rate": 8.523676880222843e-06,
+      "loss": 0.0408,
+      "step": 1050
+    },
+    {
+      "epoch": 2.8925619834710745,
+      "eval_accuracy": 0.9839133289560079,
+      "eval_f1": 0.980182447310475,
+      "eval_loss": 0.050565555691719055,
+      "eval_precision": 0.9779411764705882,
+      "eval_recall": 0.9824340149536078,
+      "eval_runtime": 3.4729,
+      "eval_samples_per_second": 7893.777,
+      "eval_steps_per_second": 7.775,
+      "step": 1050
+    },
+    {
+      "epoch": 2.9614325068870526,
+      "grad_norm": 1.6811611652374268,
+      "learning_rate": 8.245125348189415e-06,
+      "loss": 0.0404,
+      "step": 1075
+    },
+    {
+      "epoch": 3.0303030303030303,
+      "grad_norm": 1.8884915113449097,
+      "learning_rate": 7.96657381615599e-06,
+      "loss": 0.0322,
+      "step": 1100
+    },
+    {
+      "epoch": 3.0303030303030303,
+      "eval_accuracy": 0.9840592398044795,
+      "eval_f1": 0.9802949001217478,
+      "eval_loss": 0.05778279900550842,
+      "eval_precision": 0.9814012278801011,
+      "eval_recall": 0.9791910638681199,
+      "eval_runtime": 3.8894,
+      "eval_samples_per_second": 7048.308,
+      "eval_steps_per_second": 6.942,
+      "step": 1100
+    },
+    {
+      "epoch": 3.0991735537190084,
+      "grad_norm": 1.4037514925003052,
+      "learning_rate": 7.688022284122564e-06,
+      "loss": 0.0367,
+      "step": 1125
+    },
+    {
+      "epoch": 3.168044077134986,
+      "grad_norm": 1.3870735168457031,
+      "learning_rate": 7.409470752089137e-06,
+      "loss": 0.036,
+      "step": 1150
+    },
+    {
+      "epoch": 3.168044077134986,
+      "eval_accuracy": 0.98387685124389,
+      "eval_f1": 0.9801115910727142,
+      "eval_loss": 0.05209185555577278,
+      "eval_precision": 0.9791423177200396,
+      "eval_recall": 0.9810827853346545,
+      "eval_runtime": 3.4792,
+      "eval_samples_per_second": 7879.356,
+      "eval_steps_per_second": 7.76,
+      "step": 1150
+    },
+    {
+      "epoch": 3.236914600550964,
+      "grad_norm": 1.1460018157958984,
+      "learning_rate": 7.130919220055711e-06,
+      "loss": 0.0329,
+      "step": 1175
+    },
+    {
+      "epoch": 3.3057851239669422,
+      "grad_norm": 1.3611100912094116,
+      "learning_rate": 6.852367688022284e-06,
+      "loss": 0.033,
+      "step": 1200
+    },
+    {
+      "epoch": 3.3057851239669422,
+      "eval_accuracy": 0.9842781060771868,
+      "eval_f1": 0.980535609447681,
+      "eval_loss": 0.05169374495744705,
+      "eval_precision": 0.9831552255026264,
+      "eval_recall": 0.9779299162237636,
+      "eval_runtime": 3.4677,
+      "eval_samples_per_second": 7905.479,
+      "eval_steps_per_second": 7.786,
+      "step": 1200
+    },
+    {
+      "epoch": 3.3746556473829203,
+      "grad_norm": 1.9900141954421997,
+      "learning_rate": 6.573816155988858e-06,
+      "loss": 0.0346,
+      "step": 1225
+    },
+    {
+      "epoch": 3.443526170798898,
+      "grad_norm": 1.3785734176635742,
+      "learning_rate": 6.295264623955433e-06,
+      "loss": 0.0308,
+      "step": 1250
+    },
+    {
+      "epoch": 3.443526170798898,
+      "eval_accuracy": 0.9836944626833005,
+      "eval_f1": 0.9797508493771234,
+      "eval_loss": 0.0601566806435585,
+      "eval_precision": 0.985420083834518,
+      "eval_recall": 0.9741464732906945,
+      "eval_runtime": 3.4659,
+      "eval_samples_per_second": 7909.55,
+      "eval_steps_per_second": 7.79,
+      "step": 1250
+    },
+    {
+      "epoch": 3.512396694214876,
+      "grad_norm": 1.4920400381088257,
+      "learning_rate": 6.016713091922006e-06,
+      "loss": 0.0284,
+      "step": 1275
+    },
+    {
+      "epoch": 3.581267217630854,
+      "grad_norm": 2.0963149070739746,
+      "learning_rate": 5.7381615598885795e-06,
+      "loss": 0.0324,
+      "step": 1300
+    },
+    {
+      "epoch": 3.581267217630854,
+      "eval_accuracy": 0.9845334500620121,
+      "eval_f1": 0.9808957375867352,
+      "eval_loss": 0.05010749772191048,
+      "eval_precision": 0.981249436581628,
+      "eval_recall": 0.9805422934870732,
+      "eval_runtime": 4.0132,
+      "eval_samples_per_second": 6831.004,
+      "eval_steps_per_second": 6.728,
+      "step": 1300
+    },
+    {
+      "epoch": 3.650137741046832,
+      "grad_norm": 1.2143880128860474,
+      "learning_rate": 5.459610027855154e-06,
+      "loss": 0.0295,
+      "step": 1325
+    },
+    {
+      "epoch": 3.71900826446281,
+      "grad_norm": 1.3561748266220093,
+      "learning_rate": 5.181058495821727e-06,
+      "loss": 0.0348,
+      "step": 1350
+    },
+    {
+      "epoch": 3.71900826446281,
+      "eval_accuracy": 0.9849711826074269,
+      "eval_f1": 0.9814062641032584,
+      "eval_loss": 0.05094814673066139,
+      "eval_precision": 0.983358958126074,
+      "eval_recall": 0.9794613097919106,
+      "eval_runtime": 3.469,
+      "eval_samples_per_second": 7902.599,
+      "eval_steps_per_second": 7.783,
+      "step": 1350
+    },
+    {
+      "epoch": 3.787878787878788,
+      "grad_norm": 1.4375017881393433,
+      "learning_rate": 4.902506963788301e-06,
+      "loss": 0.0296,
+      "step": 1375
+    },
+    {
+      "epoch": 3.8567493112947657,
+      "grad_norm": 1.0931159257888794,
+      "learning_rate": 4.623955431754875e-06,
+      "loss": 0.0338,
+      "step": 1400
+    },
+    {
+      "epoch": 3.8567493112947657,
+      "eval_accuracy": 0.9852994820164879,
+      "eval_f1": 0.9818329351305053,
+      "eval_loss": 0.047653596848249435,
+      "eval_precision": 0.9826746074715755,
+      "eval_recall": 0.9809927033600576,
+      "eval_runtime": 3.4683,
+      "eval_samples_per_second": 7904.087,
+      "eval_steps_per_second": 7.785,
+      "step": 1400
+    },
+    {
+      "epoch": 3.925619834710744,
+      "grad_norm": 1.2919989824295044,
+      "learning_rate": 4.345403899721449e-06,
+      "loss": 0.0316,
+      "step": 1425
+    },
+    {
+      "epoch": 3.994490358126722,
+      "grad_norm": 1.893475890159607,
+      "learning_rate": 4.0668523676880225e-06,
+      "loss": 0.0285,
+      "step": 1450
+    },
+    {
+      "epoch": 3.994490358126722,
+      "eval_accuracy": 0.9851900488801343,
+      "eval_f1": 0.9816439099376074,
+      "eval_loss": 0.05093059316277504,
+      "eval_precision": 0.9853862212943633,
+      "eval_recall": 0.9779299162237636,
+      "eval_runtime": 3.8831,
+      "eval_samples_per_second": 7059.86,
+      "eval_steps_per_second": 6.953,
+      "step": 1450
+    },
+    {
+      "epoch": 4.0633608815427,
+      "grad_norm": 1.606433629989624,
+      "learning_rate": 3.7883008356545963e-06,
+      "loss": 0.0398,
+      "step": 1475
+    },
+    {
+      "epoch": 4.132231404958677,
+      "grad_norm": 1.2981059551239014,
+      "learning_rate": 3.5097493036211698e-06,
+      "loss": 0.026,
+      "step": 1500
+    },
+    {
+      "epoch": 4.132231404958677,
+      "eval_accuracy": 0.9857736922740206,
+      "eval_f1": 0.9824038982133189,
+      "eval_loss": 0.05328037962317467,
+      "eval_precision": 0.9840911145258971,
+      "eval_recall": 0.980722457436267,
+      "eval_runtime": 3.4891,
+      "eval_samples_per_second": 7856.935,
+      "eval_steps_per_second": 7.738,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 1815,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.140915438023948e+16,
+  "train_batch_size": 1024,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9e2ef6372edc08ed6a9cc44327e710c6c99dc42b3d1b334b53d9735a17a5c49
+size 4783