End of training

Browse files

Files changed (6) hide show

README.md +20 -2
all_results.json +12 -12
eval_results.json +7 -7
runs/Jul31_01-46-32_390be55cffea/events.out.tfevents.1722392562.390be55cffea.12947.1 +3 -0
train_results.json +6 -6
trainer_state.json +98 -5

README.md CHANGED Viewed

@@ -1,9 +1,24 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
 - name: smallbert-javanese
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -11,7 +26,10 @@ should probably proofread and complete it, then remove this comment. -->
 # smallbert-javanese
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 ## Model description

 ---
 tags:
 - generated_from_trainer
+datasets:
+- akahana/GlotCC-V1-jav-Latn
+metrics:
+- accuracy
 model-index:
 - name: smallbert-javanese
+  results:
+  - task:
+      name: Masked Language Modeling
+      type: fill-mask
+    dataset:
+      name: akahana/GlotCC-V1-jav-Latn default
+      type: akahana/GlotCC-V1-jav-Latn
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.1432211125795332
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # smallbert-javanese
+This model is a fine-tuned version of [](https://huggingface.co/) on the akahana/GlotCC-V1-jav-Latn default dataset.
+It achieves the following results on the evaluation set:
+- Loss: 6.2766
+- Accuracy: 0.1432
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.14000572230472635,
-    "eval_loss": 6.5218329429626465,
-    "eval_runtime": 5.6501,
     "eval_samples": 963,
-    "eval_samples_per_second": 170.44,
-    "eval_steps_per_second": 10.796,
-    "perplexity": 679.8233214153153,
-    "total_flos": 7568723438714880.0,
-    "train_loss": 6.792878454773869,
-    "train_runtime": 2074.686,
     "train_samples": 19092,
-    "train_samples_per_second": 92.024,
-    "train_steps_per_second": 2.878
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.1432211125795332,
+    "eval_loss": 6.276556968688965,
+    "eval_runtime": 5.1628,
     "eval_samples": 963,
+    "eval_samples_per_second": 186.528,
+    "eval_steps_per_second": 11.815,
+    "perplexity": 531.9539730039461,
+    "total_flos": 1.513744687742976e+16,
+    "train_loss": 3.172654545207319,
+    "train_runtime": 2061.7586,
     "train_samples": 19092,
+    "train_samples_per_second": 185.201,
+    "train_steps_per_second": 5.791
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.14000572230472635,
-    "eval_loss": 6.5218329429626465,
-    "eval_runtime": 5.6501,
     "eval_samples": 963,
-    "eval_samples_per_second": 170.44,
-    "eval_steps_per_second": 10.796,
-    "perplexity": 679.8233214153153
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.1432211125795332,
+    "eval_loss": 6.276556968688965,
+    "eval_runtime": 5.1628,
     "eval_samples": 963,
+    "eval_samples_per_second": 186.528,
+    "eval_steps_per_second": 11.815,
+    "perplexity": 531.9539730039461
 }

runs/Jul31_01-46-32_390be55cffea/events.out.tfevents.1722392562.390be55cffea.12947.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93ed4206e894a4950a42304840c4ec467fc9e7fb8d9609aff118963914b41321
+size 411

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 10.0,
-    "total_flos": 7568723438714880.0,
-    "train_loss": 6.792878454773869,
-    "train_runtime": 2074.686,
     "train_samples": 19092,
-    "train_samples_per_second": 92.024,
-    "train_steps_per_second": 2.878
 }

 {
+    "epoch": 20.0,
+    "total_flos": 1.513744687742976e+16,
+    "train_loss": 3.172654545207319,
+    "train_runtime": 2061.7586,
     "train_samples": 19092,
+    "train_samples_per_second": 185.201,
+    "train_steps_per_second": 5.791
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 5970,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -93,12 +93,105 @@
       "train_runtime": 2074.686,
       "train_samples_per_second": 92.024,
       "train_steps_per_second": 2.878
     }
   ],
   "logging_steps": 500,
-  "max_steps": 5970,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -112,7 +205,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7568723438714880.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 11940,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "train_runtime": 2074.686,
       "train_samples_per_second": 92.024,
       "train_steps_per_second": 2.878
+    },
+    {
+      "epoch": 10.050251256281408,
+      "grad_norm": 1.6812041997909546,
+      "learning_rate": 4.9874371859296486e-05,
+      "loss": 6.5362,
+      "step": 6000
+    },
+    {
+      "epoch": 10.887772194304858,
+      "grad_norm": 1.7040314674377441,
+      "learning_rate": 4.778056951423786e-05,
+      "loss": 6.542,
+      "step": 6500
+    },
+    {
+      "epoch": 11.725293132328309,
+      "grad_norm": 1.5005360841751099,
+      "learning_rate": 4.568676716917923e-05,
+      "loss": 6.4812,
+      "step": 7000
+    },
+    {
+      "epoch": 12.56281407035176,
+      "grad_norm": 2.1963107585906982,
+      "learning_rate": 4.35929648241206e-05,
+      "loss": 6.4312,
+      "step": 7500
+    },
+    {
+      "epoch": 13.40033500837521,
+      "grad_norm": 1.4487565755844116,
+      "learning_rate": 4.1499162479061974e-05,
+      "loss": 6.4049,
+      "step": 8000
+    },
+    {
+      "epoch": 14.23785594639866,
+      "grad_norm": 1.7677375078201294,
+      "learning_rate": 3.940536013400335e-05,
+      "loss": 6.3664,
+      "step": 8500
+    },
+    {
+      "epoch": 15.075376884422111,
+      "grad_norm": 1.8846427202224731,
+      "learning_rate": 3.731155778894472e-05,
+      "loss": 6.3339,
+      "step": 9000
+    },
+    {
+      "epoch": 15.912897822445562,
+      "grad_norm": 1.711972713470459,
+      "learning_rate": 3.5217755443886095e-05,
+      "loss": 6.3093,
+      "step": 9500
+    },
+    {
+      "epoch": 16.75041876046901,
+      "grad_norm": 1.8777658939361572,
+      "learning_rate": 3.312395309882747e-05,
+      "loss": 6.2826,
+      "step": 10000
+    },
+    {
+      "epoch": 17.587939698492463,
+      "grad_norm": 1.5985726118087769,
+      "learning_rate": 3.103015075376884e-05,
+      "loss": 6.2612,
+      "step": 10500
+    },
+    {
+      "epoch": 18.42546063651591,
+      "grad_norm": 1.8098769187927246,
+      "learning_rate": 2.8936348408710216e-05,
+      "loss": 6.2504,
+      "step": 11000
+    },
+    {
+      "epoch": 19.262981574539364,
+      "grad_norm": 1.4644687175750732,
+      "learning_rate": 2.684254606365159e-05,
+      "loss": 6.2358,
+      "step": 11500
+    },
+    {
+      "epoch": 20.0,
+      "step": 11940,
+      "total_flos": 1.513744687742976e+16,
+      "train_loss": 3.172654545207319,
+      "train_runtime": 2061.7586,
+      "train_samples_per_second": 185.201,
+      "train_steps_per_second": 5.791
     }
   ],
   "logging_steps": 500,
+  "max_steps": 11940,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.513744687742976e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null