End of training

Browse files

Files changed (6) hide show

README.md +10 -8
config.json +1 -1
logs/events.out.tfevents.1702895757.113cdbd75979.26.0 +3 -0
model.safetensors +1 -1
trainer_state.json +20 -188
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
@@ -11,14 +13,14 @@ should probably proofread and complete it, then remove this comment. -->
 # food-recipe-generation
-This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
-- eval_loss: 1.1335
-- eval_runtime: 18.0469
-- eval_samples_per_second: 110.823
-- eval_steps_per_second: 1.773
-- epoch: 0.02
-- step: 65
 ## Model description
@@ -43,7 +45,7 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 0.1
 - mixed_precision_training: Native AMP
 ### Framework versions

 ---
+license: mit
+base_model: gpt2
 tags:
 - generated_from_trainer
 model-index:
 # food-recipe-generation
+This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- eval_loss: 1.0114
+- eval_runtime: 2006.5534
+- eval_samples_per_second: 111.193
+- eval_steps_per_second: 1.738
+- epoch: 0.8
+- step: 50000
 ## Model description
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 500
 - mixed_precision_training: Native AMP
 ### Framework versions

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/kaggle/working/food-recipe-generation",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

 {
+  "_name_or_path": "gpt2",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

logs/events.out.tfevents.1702895757.113cdbd75979.26.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d8c3aceee3c5b9421ddfa93c338a825b3f2aa716f95c06b0b3874ec3aed88b4
+size 5037

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e61e3bd1c996a2773a820b93fa6954cc5f60e51780cc5f1901127d1f3122031
 size 497918592

 version https://git-lfs.github.com/spec/v1
+oid sha256:dec1b9b7354ba4a77850663e7816cf56efa720d5b9a816282d4900fdf2143a6c
 size 497918592

trainer_state.json CHANGED Viewed

@@ -1,202 +1,34 @@
 {
-  "best_metric": 1.124158501625061,
-  "best_model_checkpoint": "food-recipe-generation/checkpoint-45",
-  "epoch": 0.021221025138752857,
-  "eval_steps": 5,
-  "global_step": 65,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
-      "learning_rate": 4.9185667752443e-05,
-      "loss": 1.1526,
-      "step": 5
     },
     {
-      "epoch": 0.0,
-      "eval_loss": 1.142299771308899,
-      "eval_runtime": 18.2229,
-      "eval_samples_per_second": 109.752,
-      "eval_steps_per_second": 1.756,
-      "step": 5
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 4.8371335504885994e-05,
-      "loss": 1.2427,
-      "step": 10
-    },
-    {
-      "epoch": 0.0,
-      "eval_loss": 1.1404472589492798,
-      "eval_runtime": 17.9113,
-      "eval_samples_per_second": 111.662,
-      "eval_steps_per_second": 1.787,
-      "step": 10
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 4.9185667752443e-05,
-      "loss": 1.1104,
-      "step": 15
-    },
-    {
-      "epoch": 0.0,
-      "eval_loss": 1.1525651216506958,
-      "eval_runtime": 18.2243,
-      "eval_samples_per_second": 109.744,
-      "eval_steps_per_second": 1.756,
-      "step": 15
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 4.8371335504885994e-05,
-      "loss": 1.0834,
-      "step": 20
-    },
-    {
-      "epoch": 0.01,
-      "eval_loss": 1.152503490447998,
-      "eval_runtime": 17.9261,
-      "eval_samples_per_second": 111.569,
-      "eval_steps_per_second": 1.785,
-      "step": 20
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 4.9185667752443e-05,
-      "loss": 1.1478,
-      "step": 25
-    },
-    {
-      "epoch": 0.01,
-      "eval_loss": 1.1247614622116089,
-      "eval_runtime": 18.0737,
-      "eval_samples_per_second": 110.658,
-      "eval_steps_per_second": 1.771,
-      "step": 25
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 4.8371335504885994e-05,
-      "loss": 1.1589,
-      "step": 30
-    },
-    {
-      "epoch": 0.01,
-      "eval_loss": 1.1252552270889282,
-      "eval_runtime": 17.9015,
-      "eval_samples_per_second": 111.722,
-      "eval_steps_per_second": 1.788,
-      "step": 30
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 4.755700325732899e-05,
-      "loss": 1.1235,
-      "step": 35
-    },
-    {
-      "epoch": 0.01,
-      "eval_loss": 1.1276049613952637,
-      "eval_runtime": 17.7961,
-      "eval_samples_per_second": 112.384,
-      "eval_steps_per_second": 1.798,
-      "step": 35
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 4.6742671009771985e-05,
-      "loss": 1.2209,
-      "step": 40
-    },
-    {
-      "epoch": 0.01,
-      "eval_loss": 1.1258747577667236,
-      "eval_runtime": 17.8768,
-      "eval_samples_per_second": 111.877,
-      "eval_steps_per_second": 1.79,
-      "step": 40
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 4.592833876221499e-05,
-      "loss": 1.16,
-      "step": 45
-    },
-    {
-      "epoch": 0.01,
-      "eval_loss": 1.124158501625061,
-      "eval_runtime": 17.8962,
-      "eval_samples_per_second": 111.756,
-      "eval_steps_per_second": 1.788,
-      "step": 45
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 4.511400651465798e-05,
-      "loss": 1.2131,
-      "step": 50
-    },
-    {
-      "epoch": 0.02,
-      "eval_loss": 1.1221903562545776,
-      "eval_runtime": 17.8085,
-      "eval_samples_per_second": 112.306,
-      "eval_steps_per_second": 1.797,
-      "step": 50
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 4.9185667752443e-05,
-      "loss": 1.1619,
-      "step": 55
-    },
-    {
-      "epoch": 0.02,
-      "eval_loss": 1.1328459978103638,
-      "eval_runtime": 18.2169,
-      "eval_samples_per_second": 109.788,
-      "eval_steps_per_second": 1.757,
-      "step": 55
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 4.8371335504885994e-05,
-      "loss": 1.1732,
-      "step": 60
-    },
-    {
-      "epoch": 0.02,
-      "eval_loss": 1.1319738626480103,
-      "eval_runtime": 17.9412,
-      "eval_samples_per_second": 111.475,
-      "eval_steps_per_second": 1.784,
-      "step": 60
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 4.755700325732899e-05,
-      "loss": 1.1628,
-      "step": 65
-    },
-    {
-      "epoch": 0.02,
-      "eval_loss": 1.1334753036499023,
-      "eval_runtime": 18.0469,
-      "eval_samples_per_second": 110.823,
-      "eval_steps_per_second": 1.773,
-      "step": 65
     }
   ],
-  "logging_steps": 5,
-  "max_steps": 307,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
-  "save_steps": 5,
-  "total_flos": 135871856640000.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.7968000509952032,
+  "eval_steps": 50000,
+  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.8,
+      "learning_rate": 4.9920355054102726e-05,
+      "loss": 1.1412,
+      "step": 50000
     },
     {
+      "epoch": 0.8,
+      "eval_loss": 1.011365294456482,
+      "eval_runtime": 2006.5534,
+      "eval_samples_per_second": 111.193,
+      "eval_steps_per_second": 1.738,
+      "step": 50000
     }
   ],
+  "logging_steps": 50000,
+  "max_steps": 31375500,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 500,
+  "save_steps": 50000,
+  "total_flos": 1.045168128e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24f7cc470173209200fa7833aefd3c6f1ea8b6b4e8765bc96a7ce199e4c5e43d
 size 4283

 version https://git-lfs.github.com/spec/v1
+oid sha256:df1a05d08c00c3cba58440423e7820be9126a02775330faced61d133aa0fb521
 size 4283