End of training

Browse files

Files changed (7) hide show

README.md +22 -7
all_results.json +22 -22
eval_results.json +9 -9
generated_predictions.txt +0 -0
predict_results.json +9 -9
train_results.json +4 -4
trainer_state.json +61 -61

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
@@ -9,7 +11,20 @@ metrics:
 - rouge
 model-index:
 - name: liputan6-pt-pl50
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -17,14 +32,14 @@ should probably proofread and complete it, then remove this comment. -->
 # liputan6-pt-pl50
-This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.6722
-- Rouge1: 34.8229
-- Rouge2: 22.044
-- Rougel: 30.8324
-- Rougelsum: 33.0138
-- Gen Len: 52.623
 ## Model description

 ---
+language:
+- id
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
 - rouge
 model-index:
 - name: liputan6-pt-pl50
+  results:
+  - task:
+      name: Summarization
+      type: summarization
+    dataset:
+      name: id_liputan6 canonical
+      type: id_liputan6
+      config: canonical
+      split: validation
+      args: canonical
+    metrics:
+    - name: Rouge1
+      type: rouge
+      value: 35.5686
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # liputan6-pt-pl50
+This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 canonical dataset.
 It achieves the following results on the evaluation set:
 - Loss: 2.6722
+- Rouge1: 35.5686
+- Rouge2: 23.5102
+- Rougel: 31.8451
+- Rougelsum: 33.6584
+- Gen Len: 49.748
 ## Model description

all_results.json CHANGED Viewed

@@ -1,29 +1,29 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 30.789,
-    "eval_loss": 3.7532596588134766,
-    "eval_rouge1": 19.8017,
-    "eval_rouge2": 5.8239,
-    "eval_rougeL": 17.0737,
-    "eval_rougeLsum": 18.0279,
-    "eval_runtime": 1387.1111,
     "eval_samples": 1000,
-    "eval_samples_per_second": 0.721,
-    "eval_steps_per_second": 0.023,
-    "predict_gen_len": 30.491,
-    "predict_loss": 3.4927051067352295,
-    "predict_rouge1": 23.6497,
-    "predict_rouge2": 7.8208,
-    "predict_rougeL": 19.7078,
-    "predict_rougeLsum": 21.5526,
-    "predict_runtime": 1458.4576,
     "predict_samples": 1000,
-    "predict_samples_per_second": 0.686,
-    "predict_steps_per_second": 0.022,
     "total_flos": 3877644533760000.0,
-    "train_loss": 3.802120681036086,
-    "train_runtime": 4251.699,
     "train_samples": 1000,
-    "train_samples_per_second": 1.176,
-    "train_steps_per_second": 0.074
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 49.748,
+    "eval_loss": 2.672222137451172,
+    "eval_rouge1": 35.5686,
+    "eval_rouge2": 23.5102,
+    "eval_rougeL": 31.8451,
+    "eval_rougeLsum": 33.6584,
+    "eval_runtime": 2319.0061,
     "eval_samples": 1000,
+    "eval_samples_per_second": 0.431,
+    "eval_steps_per_second": 0.014,
+    "predict_gen_len": 49.162,
+    "predict_loss": 2.477644681930542,
+    "predict_rouge1": 41.5784,
+    "predict_rouge2": 29.1773,
+    "predict_rougeL": 37.9481,
+    "predict_rougeLsum": 39.9059,
+    "predict_runtime": 2142.851,
     "predict_samples": 1000,
+    "predict_samples_per_second": 0.467,
+    "predict_steps_per_second": 0.015,
     "total_flos": 3877644533760000.0,
+    "train_loss": 3.241740926106771,
+    "train_runtime": 6571.5037,
     "train_samples": 1000,
+    "train_samples_per_second": 0.761,
+    "train_steps_per_second": 0.048
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 30.789,
-    "eval_loss": 3.7532596588134766,
-    "eval_rouge1": 19.8017,
-    "eval_rouge2": 5.8239,
-    "eval_rougeL": 17.0737,
-    "eval_rougeLsum": 18.0279,
-    "eval_runtime": 1387.1111,
     "eval_samples": 1000,
-    "eval_samples_per_second": 0.721,
-    "eval_steps_per_second": 0.023
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 49.748,
+    "eval_loss": 2.672222137451172,
+    "eval_rouge1": 35.5686,
+    "eval_rouge2": 23.5102,
+    "eval_rougeL": 31.8451,
+    "eval_rougeLsum": 33.6584,
+    "eval_runtime": 2319.0061,
     "eval_samples": 1000,
+    "eval_samples_per_second": 0.431,
+    "eval_steps_per_second": 0.014
 }

generated_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "predict_gen_len": 30.491,
-    "predict_loss": 3.4927051067352295,
-    "predict_rouge1": 23.6497,
-    "predict_rouge2": 7.8208,
-    "predict_rougeL": 19.7078,
-    "predict_rougeLsum": 21.5526,
-    "predict_runtime": 1458.4576,
     "predict_samples": 1000,
-    "predict_samples_per_second": 0.686,
-    "predict_steps_per_second": 0.022
 }

 {
+    "predict_gen_len": 49.162,
+    "predict_loss": 2.477644681930542,
+    "predict_rouge1": 41.5784,
+    "predict_rouge2": 29.1773,
+    "predict_rougeL": 37.9481,
+    "predict_rougeLsum": 39.9059,
+    "predict_runtime": 2142.851,
     "predict_samples": 1000,
+    "predict_samples_per_second": 0.467,
+    "predict_steps_per_second": 0.015
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
     "total_flos": 3877644533760000.0,
-    "train_loss": 3.802120681036086,
-    "train_runtime": 4251.699,
     "train_samples": 1000,
-    "train_samples_per_second": 1.176,
-    "train_steps_per_second": 0.074
 }

 {
     "epoch": 5.0,
     "total_flos": 3877644533760000.0,
+    "train_loss": 3.241740926106771,
+    "train_runtime": 6571.5037,
     "train_samples": 1000,
+    "train_samples_per_second": 0.761,
+    "train_steps_per_second": 0.048
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 19.7665,
-  "best_model_checkpoint": "bin/liputan6-pt-pl50/checkpoint-252",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 315,
@@ -10,112 +10,112 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.0756858587265015,
       "learning_rate": 0.0008,
-      "loss": 4.7245,
       "step": 63
     },
     {
       "epoch": 1.0,
-      "eval_gen_len": 30.652,
-      "eval_loss": 3.9912047386169434,
-      "eval_rouge1": 16.8276,
-      "eval_rouge2": 3.6927,
-      "eval_rougeL": 14.367,
-      "eval_rougeLsum": 15.3151,
-      "eval_runtime": 761.8947,
-      "eval_samples_per_second": 1.313,
-      "eval_steps_per_second": 0.042,
       "step": 63
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.0456533432006836,
       "learning_rate": 0.0006,
-      "loss": 3.9104,
       "step": 126
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 35.104,
-      "eval_loss": 3.8609139919281006,
-      "eval_rouge1": 17.712,
-      "eval_rouge2": 4.2061,
-      "eval_rougeL": 14.9465,
-      "eval_rougeLsum": 15.9818,
-      "eval_runtime": 1158.8796,
-      "eval_samples_per_second": 0.863,
-      "eval_steps_per_second": 0.028,
       "step": 126
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.1262755393981934,
       "learning_rate": 0.0004,
-      "loss": 3.6651,
       "step": 189
     },
     {
       "epoch": 3.0,
-      "eval_gen_len": 30.749,
-      "eval_loss": 3.8036019802093506,
-      "eval_rouge1": 18.8508,
-      "eval_rouge2": 4.6943,
-      "eval_rougeL": 15.8363,
-      "eval_rougeLsum": 17.0134,
-      "eval_runtime": 740.0114,
-      "eval_samples_per_second": 1.351,
-      "eval_steps_per_second": 0.043,
       "step": 189
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.2107006311416626,
       "learning_rate": 0.0002,
-      "loss": 3.4442,
       "step": 252
     },
     {
       "epoch": 4.0,
-      "eval_gen_len": 28.31,
-      "eval_loss": 3.7532596588134766,
-      "eval_rouge1": 19.7665,
-      "eval_rouge2": 5.1425,
-      "eval_rougeL": 16.7615,
-      "eval_rougeLsum": 18.1456,
-      "eval_runtime": 520.3377,
-      "eval_samples_per_second": 1.922,
-      "eval_steps_per_second": 0.061,
       "step": 252
     },
     {
       "epoch": 5.0,
-      "grad_norm": 1.1439872980117798,
       "learning_rate": 0.0,
-      "loss": 3.2664,
       "step": 315
     },
     {
       "epoch": 5.0,
-      "eval_gen_len": 29.142,
-      "eval_loss": 3.7381248474121094,
-      "eval_rouge1": 19.5385,
-      "eval_rouge2": 5.1106,
-      "eval_rougeL": 16.7601,
-      "eval_rougeLsum": 17.9271,
-      "eval_runtime": 664.3792,
-      "eval_samples_per_second": 1.505,
-      "eval_steps_per_second": 0.048,
       "step": 315
     },
     {
       "epoch": 5.0,
       "step": 315,
       "total_flos": 3877644533760000.0,
-      "train_loss": 3.802120681036086,
-      "train_runtime": 4251.699,
-      "train_samples_per_second": 1.176,
-      "train_steps_per_second": 0.074
     }
   ],
   "logging_steps": 500,

 {
+  "best_metric": 34.8229,
+  "best_model_checkpoint": "bin/liputan6-pt-pl50/checkpoint-315",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 315,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.9081947207450867,
       "learning_rate": 0.0008,
+      "loss": 4.2782,
       "step": 63
     },
     {
       "epoch": 1.0,
+      "eval_gen_len": 38.037,
+      "eval_loss": 3.2600271701812744,
+      "eval_rouge1": 25.0139,
+      "eval_rouge2": 13.1669,
+      "eval_rougeL": 22.4852,
+      "eval_rougeLsum": 23.5026,
+      "eval_runtime": 1079.1281,
+      "eval_samples_per_second": 0.927,
+      "eval_steps_per_second": 0.03,
       "step": 63
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.9287102818489075,
       "learning_rate": 0.0006,
+      "loss": 3.3831,
       "step": 126
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 51.621,
+      "eval_loss": 3.011786460876465,
+      "eval_rouge1": 28.0005,
+      "eval_rouge2": 15.5199,
+      "eval_rougeL": 25.1006,
+      "eval_rougeLsum": 26.3175,
+      "eval_runtime": 1436.7107,
+      "eval_samples_per_second": 0.696,
+      "eval_steps_per_second": 0.022,
       "step": 126
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.8845603466033936,
       "learning_rate": 0.0004,
+      "loss": 3.0732,
       "step": 189
     },
     {
       "epoch": 3.0,
+      "eval_gen_len": 51.938,
+      "eval_loss": 2.822599172592163,
+      "eval_rouge1": 31.6641,
+      "eval_rouge2": 18.1569,
+      "eval_rougeL": 27.8004,
+      "eval_rougeLsum": 29.8463,
+      "eval_runtime": 1387.7431,
+      "eval_samples_per_second": 0.721,
+      "eval_steps_per_second": 0.023,
       "step": 189
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.9532793164253235,
       "learning_rate": 0.0002,
+      "loss": 2.83,
       "step": 252
     },
     {
       "epoch": 4.0,
+      "eval_gen_len": 51.327,
+      "eval_loss": 2.718118667602539,
+      "eval_rouge1": 34.3328,
+      "eval_rouge2": 21.5065,
+      "eval_rougeL": 30.323,
+      "eval_rougeLsum": 32.3623,
+      "eval_runtime": 1087.9011,
+      "eval_samples_per_second": 0.919,
+      "eval_steps_per_second": 0.029,
       "step": 252
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.9524036049842834,
       "learning_rate": 0.0,
+      "loss": 2.6441,
       "step": 315
     },
     {
       "epoch": 5.0,
+      "eval_gen_len": 52.623,
+      "eval_loss": 2.672222137451172,
+      "eval_rouge1": 34.8229,
+      "eval_rouge2": 22.044,
+      "eval_rougeL": 30.8324,
+      "eval_rougeLsum": 33.0138,
+      "eval_runtime": 1171.6265,
+      "eval_samples_per_second": 0.854,
+      "eval_steps_per_second": 0.027,
       "step": 315
     },
     {
       "epoch": 5.0,
       "step": 315,
       "total_flos": 3877644533760000.0,
+      "train_loss": 3.241740926106771,
+      "train_runtime": 6571.5037,
+      "train_samples_per_second": 0.761,
+      "train_steps_per_second": 0.048
     }
   ],
   "logging_steps": 500,