End of training

Browse files

Files changed (6) hide show

README.md +24 -2
all_results.json +10 -9
eval_results.json +6 -5
generation_config.json +0 -1
train_results.json +4 -4
trainer_state.json +27 -27

README.md CHANGED Viewed

@@ -1,13 +1,31 @@
 ---
 license: apache-2.0
 base_model: t5-small
 tags:
 - generated_from_trainer
 datasets:
 - opus100
 model-index:
 - name: english-hebrew
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,7 +33,11 @@ should probably proofread and complete it, then remove this comment. -->
 # english-hebrew
-This model is a fine-tuned version of [t5-small](https://huggingface.co/t5-small) on the opus100 dataset.
 ## Model description

 ---
+language:
+- en
+- he
 license: apache-2.0
 base_model: t5-small
 tags:
 - generated_from_trainer
 datasets:
 - opus100
+metrics:
+- bleu
 model-index:
 - name: english-hebrew
+  results:
+  - task:
+      name: Translation
+      type: translation
+    dataset:
+      name: opus100 en-he
+      type: opus100
+      config: en-he
+      split: validation
+      args: en-he
+    metrics:
+    - name: Bleu
+      type: bleu
+      value: 38.2026
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # english-hebrew
+This model is a fine-tuned version of [t5-small](https://huggingface.co/t5-small) on the opus100 en-he dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.2419
+- Bleu: 38.2026
+- Gen Len: 18.125
 ## Model description

all_results.json CHANGED Viewed

@@ -1,14 +1,15 @@
 {
     "epoch": 3.0,
-    "eval_bleu": 38.03154544811525,
-    "eval_loss": 0.23992294073104858,
-    "eval_runtime": 138.9929,
     "eval_samples": 32,
-    "eval_samples_per_second": 0.23,
-    "eval_steps_per_second": 0.058,
-    "train_loss": 0.24653975453639984,
-    "train_runtime": 3373.715,
     "train_samples": 15625,
-    "train_samples_per_second": 13.894,
-    "train_steps_per_second": 3.474
 }

 {
     "epoch": 3.0,
+    "eval_bleu": 38.2026,
+    "eval_gen_len": 18.125,
+    "eval_loss": 0.24194486439228058,
+    "eval_runtime": 136.5953,
     "eval_samples": 32,
+    "eval_samples_per_second": 0.234,
+    "eval_steps_per_second": 0.059,
+    "train_loss": 0.24679102432645433,
+    "train_runtime": 13355.3232,
     "train_samples": 15625,
+    "train_samples_per_second": 3.51,
+    "train_steps_per_second": 0.878
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,10 @@
 {
     "epoch": 3.0,
-    "eval_bleu": 38.03154544811525,
-    "eval_loss": 0.23992294073104858,
-    "eval_runtime": 138.9929,
     "eval_samples": 32,
-    "eval_samples_per_second": 0.23,
-    "eval_steps_per_second": 0.058
 }

 {
     "epoch": 3.0,
+    "eval_bleu": 38.2026,
+    "eval_gen_len": 18.125,
+    "eval_loss": 0.24194486439228058,
+    "eval_runtime": 136.5953,
     "eval_samples": 32,
+    "eval_samples_per_second": 0.234,
+    "eval_steps_per_second": 0.059
 }

generation_config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_from_model_config": true,
   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,

 {
   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.24653975453639984,
-    "train_runtime": 3373.715,
     "train_samples": 15625,
-    "train_samples_per_second": 13.894,
-    "train_steps_per_second": 3.474
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.24679102432645433,
+    "train_runtime": 13355.3232,
     "train_samples": 15625,
+    "train_samples_per_second": 3.51,
+    "train_steps_per_second": 0.878
 }

trainer_state.json CHANGED Viewed

@@ -11,149 +11,149 @@
     {
       "epoch": 0.13,
       "learning_rate": 4.7867076188038565e-05,
-      "loss": 0.3426,
       "step": 500
     },
     {
       "epoch": 0.26,
       "learning_rate": 4.573415237607713e-05,
-      "loss": 0.2889,
       "step": 1000
     },
     {
       "epoch": 0.38,
       "learning_rate": 4.360122856411569e-05,
-      "loss": 0.2868,
       "step": 1500
     },
     {
       "epoch": 0.51,
       "learning_rate": 4.146830475215426e-05,
-      "loss": 0.2508,
       "step": 2000
     },
     {
       "epoch": 0.64,
       "learning_rate": 3.933538094019282e-05,
-      "loss": 0.2525,
       "step": 2500
     },
     {
       "epoch": 0.77,
       "learning_rate": 3.720245712823138e-05,
-      "loss": 0.2547,
       "step": 3000
     },
     {
       "epoch": 0.9,
       "learning_rate": 3.506953331626994e-05,
-      "loss": 0.2494,
       "step": 3500
     },
     {
       "epoch": 1.02,
       "learning_rate": 3.2936609504308506e-05,
-      "loss": 0.2532,
       "step": 4000
     },
     {
       "epoch": 1.15,
       "learning_rate": 3.0803685692347076e-05,
-      "loss": 0.2496,
       "step": 4500
     },
     {
       "epoch": 1.28,
       "learning_rate": 2.8670761880385632e-05,
-      "loss": 0.2321,
       "step": 5000
     },
     {
       "epoch": 1.41,
       "learning_rate": 2.6537838068424198e-05,
-      "loss": 0.244,
       "step": 5500
     },
     {
       "epoch": 1.54,
       "learning_rate": 2.440491425646276e-05,
-      "loss": 0.2433,
       "step": 6000
     },
     {
       "epoch": 1.66,
       "learning_rate": 2.2271990444501324e-05,
-      "loss": 0.237,
       "step": 6500
     },
     {
       "epoch": 1.79,
       "learning_rate": 2.0139066632539887e-05,
-      "loss": 0.2308,
       "step": 7000
     },
     {
       "epoch": 1.92,
       "learning_rate": 1.800614282057845e-05,
-      "loss": 0.225,
       "step": 7500
     },
     {
       "epoch": 2.05,
       "learning_rate": 1.5873219008617013e-05,
-      "loss": 0.2378,
       "step": 8000
     },
     {
       "epoch": 2.18,
       "learning_rate": 1.3740295196655576e-05,
-      "loss": 0.2264,
       "step": 8500
     },
     {
       "epoch": 2.3,
       "learning_rate": 1.1607371384694139e-05,
-      "loss": 0.2289,
       "step": 9000
     },
     {
       "epoch": 2.43,
       "learning_rate": 9.474447572732703e-06,
-      "loss": 0.2321,
       "step": 9500
     },
     {
       "epoch": 2.56,
       "learning_rate": 7.3415237607712656e-06,
-      "loss": 0.2356,
       "step": 10000
     },
     {
       "epoch": 2.69,
       "learning_rate": 5.2085999488098285e-06,
-      "loss": 0.2279,
       "step": 10500
     },
     {
       "epoch": 2.82,
       "learning_rate": 3.075676136848392e-06,
-      "loss": 0.2194,
       "step": 11000
     },
     {
       "epoch": 2.94,
       "learning_rate": 9.42752324886955e-07,
-      "loss": 0.228,
       "step": 11500
     },
     {
       "epoch": 3.0,
       "step": 11721,
       "total_flos": 298502687293440.0,
-      "train_loss": 0.24653975453639984,
-      "train_runtime": 3373.715,
-      "train_samples_per_second": 13.894,
-      "train_steps_per_second": 3.474
     }
   ],
   "logging_steps": 500,

     {
       "epoch": 0.13,
       "learning_rate": 4.7867076188038565e-05,
+      "loss": 0.3418,
       "step": 500
     },
     {
       "epoch": 0.26,
       "learning_rate": 4.573415237607713e-05,
+      "loss": 0.2892,
       "step": 1000
     },
     {
       "epoch": 0.38,
       "learning_rate": 4.360122856411569e-05,
+      "loss": 0.2876,
       "step": 1500
     },
     {
       "epoch": 0.51,
       "learning_rate": 4.146830475215426e-05,
+      "loss": 0.2511,
       "step": 2000
     },
     {
       "epoch": 0.64,
       "learning_rate": 3.933538094019282e-05,
+      "loss": 0.2528,
       "step": 2500
     },
     {
       "epoch": 0.77,
       "learning_rate": 3.720245712823138e-05,
+      "loss": 0.2545,
       "step": 3000
     },
     {
       "epoch": 0.9,
       "learning_rate": 3.506953331626994e-05,
+      "loss": 0.2496,
       "step": 3500
     },
     {
       "epoch": 1.02,
       "learning_rate": 3.2936609504308506e-05,
+      "loss": 0.2534,
       "step": 4000
     },
     {
       "epoch": 1.15,
       "learning_rate": 3.0803685692347076e-05,
+      "loss": 0.2498,
       "step": 4500
     },
     {
       "epoch": 1.28,
       "learning_rate": 2.8670761880385632e-05,
+      "loss": 0.2333,
       "step": 5000
     },
     {
       "epoch": 1.41,
       "learning_rate": 2.6537838068424198e-05,
+      "loss": 0.2448,
       "step": 5500
     },
     {
       "epoch": 1.54,
       "learning_rate": 2.440491425646276e-05,
+      "loss": 0.2426,
       "step": 6000
     },
     {
       "epoch": 1.66,
       "learning_rate": 2.2271990444501324e-05,
+      "loss": 0.2371,
       "step": 6500
     },
     {
       "epoch": 1.79,
       "learning_rate": 2.0139066632539887e-05,
+      "loss": 0.2307,
       "step": 7000
     },
     {
       "epoch": 1.92,
       "learning_rate": 1.800614282057845e-05,
+      "loss": 0.2255,
       "step": 7500
     },
     {
       "epoch": 2.05,
       "learning_rate": 1.5873219008617013e-05,
+      "loss": 0.2384,
       "step": 8000
     },
     {
       "epoch": 2.18,
       "learning_rate": 1.3740295196655576e-05,
+      "loss": 0.226,
       "step": 8500
     },
     {
       "epoch": 2.3,
       "learning_rate": 1.1607371384694139e-05,
+      "loss": 0.2295,
       "step": 9000
     },
     {
       "epoch": 2.43,
       "learning_rate": 9.474447572732703e-06,
+      "loss": 0.2324,
       "step": 9500
     },
     {
       "epoch": 2.56,
       "learning_rate": 7.3415237607712656e-06,
+      "loss": 0.236,
       "step": 10000
     },
     {
       "epoch": 2.69,
       "learning_rate": 5.2085999488098285e-06,
+      "loss": 0.2278,
       "step": 10500
     },
     {
       "epoch": 2.82,
       "learning_rate": 3.075676136848392e-06,
+      "loss": 0.2199,
       "step": 11000
     },
     {
       "epoch": 2.94,
       "learning_rate": 9.42752324886955e-07,
+      "loss": 0.2283,
       "step": 11500
     },
     {
       "epoch": 3.0,
       "step": 11721,
       "total_flos": 298502687293440.0,
+      "train_loss": 0.24679102432645433,
+      "train_runtime": 13355.3232,
+      "train_samples_per_second": 3.51,
+      "train_steps_per_second": 0.878
     }
   ],
   "logging_steps": 500,