End of training

Browse files

Files changed (7) hide show

README.md +23 -8
all_results.json +22 -22
eval_results.json +9 -9
generated_predictions.txt +0 -0
predict_results.json +9 -9
train_results.json +4 -4
trainer_state.json +61 -61

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
@@ -9,7 +11,20 @@ metrics:
 - rouge
 model-index:
 - name: liputan6-lora-16
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -17,14 +32,14 @@ should probably proofread and complete it, then remove this comment. -->
 # liputan6-lora-16
-This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2211
-- Rouge1: 41.3186
-- Rouge2: 32.0318
-- Rougel: 37.7094
-- Rougelsum: 39.8931
-- Gen Len: 54.221
 ## Model description

 ---
+language:
+- id
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
 - rouge
 model-index:
 - name: liputan6-lora-16
+  results:
+  - task:
+      name: Summarization
+      type: summarization
+    dataset:
+      name: id_liputan6 canonical
+      type: id_liputan6
+      config: canonical
+      split: validation
+      args: canonical
+    metrics:
+    - name: Rouge1
+      type: rouge
+      value: 43.1279
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # liputan6-lora-16
+This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 canonical dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2652
+- Rouge1: 43.1279
+- Rouge2: 34.4893
+- Rougel: 39.464
+- Rougelsum: 41.6727
+- Gen Len: 58.936
 ## Model description

all_results.json CHANGED Viewed

@@ -1,29 +1,29 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 37.115,
-    "eval_loss": 2.657413959503174,
-    "eval_rouge1": 28.4262,
-    "eval_rouge2": 12.9627,
-    "eval_rougeL": 24.3479,
-    "eval_rougeLsum": 26.1183,
-    "eval_runtime": 1082.3747,
     "eval_samples": 1000,
-    "eval_samples_per_second": 0.924,
-    "eval_steps_per_second": 0.03,
-    "predict_gen_len": 36.246,
-    "predict_loss": 2.1108694076538086,
-    "predict_rouge1": 36.2324,
-    "predict_rouge2": 20.0427,
-    "predict_rougeL": 31.2369,
-    "predict_rougeLsum": 33.8051,
-    "predict_runtime": 976.7295,
     "predict_samples": 1000,
-    "predict_samples_per_second": 1.024,
-    "predict_steps_per_second": 0.033,
     "total_flos": 3450965852160000.0,
-    "train_loss": 2.2952696300688245,
-    "train_runtime": 1511.6568,
     "train_samples": 1000,
-    "train_samples_per_second": 3.308,
-    "train_steps_per_second": 0.208
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 58.936,
+    "eval_loss": 0.2652311325073242,
+    "eval_rouge1": 43.1279,
+    "eval_rouge2": 34.4893,
+    "eval_rougeL": 39.464,
+    "eval_rougeLsum": 41.6727,
+    "eval_runtime": 1979.6358,
     "eval_samples": 1000,
+    "eval_samples_per_second": 0.505,
+    "eval_steps_per_second": 0.016,
+    "predict_gen_len": 56.942,
+    "predict_loss": 0.2796679437160492,
+    "predict_rouge1": 47.8935,
+    "predict_rouge2": 40.2821,
+    "predict_rougeL": 45.0215,
+    "predict_rougeLsum": 46.971,
+    "predict_runtime": 1855.785,
     "predict_samples": 1000,
+    "predict_samples_per_second": 0.539,
+    "predict_steps_per_second": 0.017,
     "total_flos": 3450965852160000.0,
+    "train_loss": 0.58534057253883,
+    "train_runtime": 2138.3119,
     "train_samples": 1000,
+    "train_samples_per_second": 2.338,
+    "train_steps_per_second": 0.147
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 37.115,
-    "eval_loss": 2.657413959503174,
-    "eval_rouge1": 28.4262,
-    "eval_rouge2": 12.9627,
-    "eval_rougeL": 24.3479,
-    "eval_rougeLsum": 26.1183,
-    "eval_runtime": 1082.3747,
     "eval_samples": 1000,
-    "eval_samples_per_second": 0.924,
-    "eval_steps_per_second": 0.03
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 58.936,
+    "eval_loss": 0.2652311325073242,
+    "eval_rouge1": 43.1279,
+    "eval_rouge2": 34.4893,
+    "eval_rougeL": 39.464,
+    "eval_rougeLsum": 41.6727,
+    "eval_runtime": 1979.6358,
     "eval_samples": 1000,
+    "eval_samples_per_second": 0.505,
+    "eval_steps_per_second": 0.016
 }

generated_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "predict_gen_len": 36.246,
-    "predict_loss": 2.1108694076538086,
-    "predict_rouge1": 36.2324,
-    "predict_rouge2": 20.0427,
-    "predict_rougeL": 31.2369,
-    "predict_rougeLsum": 33.8051,
-    "predict_runtime": 976.7295,
     "predict_samples": 1000,
-    "predict_samples_per_second": 1.024,
-    "predict_steps_per_second": 0.033
 }

 {
+    "predict_gen_len": 56.942,
+    "predict_loss": 0.2796679437160492,
+    "predict_rouge1": 47.8935,
+    "predict_rouge2": 40.2821,
+    "predict_rougeL": 45.0215,
+    "predict_rougeLsum": 46.971,
+    "predict_runtime": 1855.785,
     "predict_samples": 1000,
+    "predict_samples_per_second": 0.539,
+    "predict_steps_per_second": 0.017
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
     "total_flos": 3450965852160000.0,
-    "train_loss": 2.2952696300688245,
-    "train_runtime": 1511.6568,
     "train_samples": 1000,
-    "train_samples_per_second": 3.308,
-    "train_steps_per_second": 0.208
 }

 {
     "epoch": 5.0,
     "total_flos": 3450965852160000.0,
+    "train_loss": 0.58534057253883,
+    "train_runtime": 2138.3119,
     "train_samples": 1000,
+    "train_samples_per_second": 2.338,
+    "train_steps_per_second": 0.147
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 28.5562,
-  "best_model_checkpoint": "bin/liputan6-lora-16/checkpoint-252",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 315,
@@ -10,112 +10,112 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.2158453464508057,
       "learning_rate": 0.0008,
-      "loss": 2.9434,
       "step": 63
     },
     {
       "epoch": 1.0,
-      "eval_gen_len": 35.404,
-      "eval_loss": 2.6951351165771484,
-      "eval_rouge1": 25.6796,
-      "eval_rouge2": 11.0701,
-      "eval_rougeL": 22.1424,
-      "eval_rougeLsum": 23.2849,
-      "eval_runtime": 342.3214,
-      "eval_samples_per_second": 2.921,
-      "eval_steps_per_second": 0.093,
       "step": 63
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.3100322484970093,
       "learning_rate": 0.0006,
-      "loss": 2.3008,
       "step": 126
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 35.768,
-      "eval_loss": 2.654245376586914,
-      "eval_rouge1": 27.4005,
-      "eval_rouge2": 12.0574,
-      "eval_rougeL": 23.6657,
-      "eval_rougeLsum": 25.1251,
-      "eval_runtime": 257.9915,
-      "eval_samples_per_second": 3.876,
-      "eval_steps_per_second": 0.124,
       "step": 126
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.364740014076233,
       "learning_rate": 0.0004,
-      "loss": 2.1668,
       "step": 189
     },
     {
       "epoch": 3.0,
-      "eval_gen_len": 32.749,
-      "eval_loss": 2.6101162433624268,
-      "eval_rouge1": 28.0403,
-      "eval_rouge2": 12.2713,
-      "eval_rougeL": 23.9451,
-      "eval_rougeLsum": 25.7556,
-      "eval_runtime": 180.1413,
-      "eval_samples_per_second": 5.551,
-      "eval_steps_per_second": 0.178,
       "step": 189
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.419220209121704,
       "learning_rate": 0.0002,
-      "loss": 2.0618,
       "step": 252
     },
     {
       "epoch": 4.0,
-      "eval_gen_len": 32.931,
-      "eval_loss": 2.657413959503174,
-      "eval_rouge1": 28.5562,
-      "eval_rouge2": 12.5992,
-      "eval_rougeL": 24.2399,
-      "eval_rougeLsum": 26.2278,
-      "eval_runtime": 174.5382,
-      "eval_samples_per_second": 5.729,
-      "eval_steps_per_second": 0.183,
       "step": 252
     },
     {
       "epoch": 5.0,
-      "grad_norm": 1.2581560611724854,
       "learning_rate": 0.0,
-      "loss": 2.0036,
       "step": 315
     },
     {
       "epoch": 5.0,
-      "eval_gen_len": 33.644,
-      "eval_loss": 2.661618232727051,
-      "eval_rouge1": 28.2024,
-      "eval_rouge2": 12.3241,
-      "eval_rougeL": 23.9228,
-      "eval_rougeLsum": 25.9287,
-      "eval_runtime": 195.8376,
-      "eval_samples_per_second": 5.106,
-      "eval_steps_per_second": 0.163,
       "step": 315
     },
     {
       "epoch": 5.0,
       "step": 315,
       "total_flos": 3450965852160000.0,
-      "train_loss": 2.2952696300688245,
-      "train_runtime": 1511.6568,
-      "train_samples_per_second": 3.308,
-      "train_steps_per_second": 0.208
     }
   ],
   "logging_steps": 500,

 {
+  "best_metric": 42.9261,
+  "best_model_checkpoint": "bin/liputan6-lora-16/checkpoint-126",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 315,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 1.2134227752685547,
       "learning_rate": 0.0008,
+      "loss": 1.2779,
       "step": 63
     },
     {
       "epoch": 1.0,
+      "eval_gen_len": 52.145,
+      "eval_loss": 0.37336987257003784,
+      "eval_rouge1": 40.6247,
+      "eval_rouge2": 32.4945,
+      "eval_rougeL": 37.6262,
+      "eval_rougeLsum": 39.2634,
+      "eval_runtime": 448.1941,
+      "eval_samples_per_second": 2.231,
+      "eval_steps_per_second": 0.071,
       "step": 63
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.2146146297454834,
       "learning_rate": 0.0006,
+      "loss": 0.533,
       "step": 126
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 53.098,
+      "eval_loss": 0.2652311325073242,
+      "eval_rouge1": 42.9261,
+      "eval_rouge2": 34.4419,
+      "eval_rougeL": 39.4137,
+      "eval_rougeLsum": 41.4698,
+      "eval_runtime": 322.7452,
+      "eval_samples_per_second": 3.098,
+      "eval_steps_per_second": 0.099,
       "step": 126
     },
     {
       "epoch": 3.0,
+      "grad_norm": 1.5715835094451904,
       "learning_rate": 0.0004,
+      "loss": 0.4176,
       "step": 189
     },
     {
       "epoch": 3.0,
+      "eval_gen_len": 50.993,
+      "eval_loss": 0.22850000858306885,
+      "eval_rouge1": 40.0567,
+      "eval_rouge2": 30.7942,
+      "eval_rougeL": 36.765,
+      "eval_rougeLsum": 38.66,
+      "eval_runtime": 323.3178,
+      "eval_samples_per_second": 3.093,
+      "eval_steps_per_second": 0.099,
       "step": 189
     },
     {
       "epoch": 4.0,
+      "grad_norm": 1.0843775272369385,
       "learning_rate": 0.0002,
+      "loss": 0.364,
       "step": 252
     },
     {
       "epoch": 4.0,
+      "eval_gen_len": 55.49,
+      "eval_loss": 0.2309255301952362,
+      "eval_rouge1": 42.2149,
+      "eval_rouge2": 33.065,
+      "eval_rougeL": 38.5226,
+      "eval_rougeLsum": 40.8353,
+      "eval_runtime": 351.6114,
+      "eval_samples_per_second": 2.844,
+      "eval_steps_per_second": 0.091,
       "step": 252
     },
     {
       "epoch": 5.0,
+      "grad_norm": 1.0948582887649536,
       "learning_rate": 0.0,
+      "loss": 0.3343,
       "step": 315
     },
     {
       "epoch": 5.0,
+      "eval_gen_len": 54.221,
+      "eval_loss": 0.22110214829444885,
+      "eval_rouge1": 41.3186,
+      "eval_rouge2": 32.0318,
+      "eval_rougeL": 37.7094,
+      "eval_rougeLsum": 39.8931,
+      "eval_runtime": 331.1377,
+      "eval_samples_per_second": 3.02,
+      "eval_steps_per_second": 0.097,
       "step": 315
     },
     {
       "epoch": 5.0,
       "step": 315,
       "total_flos": 3450965852160000.0,
+      "train_loss": 0.58534057253883,
+      "train_runtime": 2138.3119,
+      "train_samples_per_second": 2.338,
+      "train_steps_per_second": 0.147
     }
   ],
   "logging_steps": 500,