End of training

Browse files

Files changed (8) hide show

README.md +3 -3
all_results.json +16 -0
args.bin +3 -0
eval_results.json +10 -0
events.out.tfevents.1717593890.isl-gpu3.8841.1 +3 -0
log.txt +40 -0
train_results.json +9 -0
trainer_state.json +295 -0

README.md CHANGED Viewed

@@ -15,10 +15,10 @@ should probably proofread and complete it, then remove this comment. -->
 # ShareGPT_llama2_68M
-This model is a fine-tuned version of [JackFram/llama-68m](https://huggingface.co/JackFram/llama-68m) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.3636
-- Accuracy: 0.5808
 ## Model description

 # ShareGPT_llama2_68M
+This model is a fine-tuned version of [JackFram/llama-68m](https://huggingface.co/JackFram/llama-68m) on the anon8231489123/ShareGPT_Vicuna_unfiltered/ShareGPT_V3_unfiltered_cleaned_split.json dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.3592
+- Accuracy: 0.5813
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 3.0,
+    "eval_accuracy": 0.5813425267092882,
+    "eval_loss": 2.3592453002929688,
+    "eval_runtime": 73.2624,
+    "eval_samples": 1840,
+    "eval_samples_per_second": 25.115,
+    "eval_steps_per_second": 0.532,
+    "perplexity": 10.582961479869661,
+    "total_flos": 1.4536404559724544e+17,
+    "train_loss": 2.595605703293699,
+    "train_runtime": 11859.9653,
+    "train_samples": 90745,
+    "train_samples_per_second": 22.954,
+    "train_steps_per_second": 0.957
+}

args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83655d6e7af9b50c2c73fe9e934f013ef33e3cec89e655b5e371774d2f562aa0
+size 6036

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 3.0,
+    "eval_accuracy": 0.5813425267092882,
+    "eval_loss": 2.3592453002929688,
+    "eval_runtime": 73.2624,
+    "eval_samples": 1840,
+    "eval_samples_per_second": 25.115,
+    "eval_steps_per_second": 0.532,
+    "perplexity": 10.582961479869661
+}

events.out.tfevents.1717593890.isl-gpu3.8841.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c31baaf3d19b6c99f2acf76d73245ee167d7be011ca6e4ae492169276f31d551
+size 411

log.txt CHANGED Viewed

@@ -1021,3 +1021,43 @@ Training completed. Do not forget to share your model on huggingface.co/models =
  0%|          | 0/39 [00:00<?, ?it/s]
  5%|▌         | 2/39 [00:01<00:27,  1.35it/s]
  8%|▊         | 3/39 [00:02<00:37,  1.06s/it]
 10%|█         | 4/39 [00:04<00:42,  1.22s/it]
 13%|█▎        | 5/39 [00:05<00:44,  1.31s/it]
 15%|█▌        | 6/39 [00:07<00:45,  1.37s/it]
 18%|█▊        | 7/39 [00:08<00:45,  1.41s/it]
 21%|██        | 8/39 [00:10<00:44,  1.43s/it]
 23%|██▎       | 9/39 [00:11<00:43,  1.45s/it]
 26%|██▌       | 10/39 [00:13<00:42,  1.46s/it]
 28%|██▊       | 11/39 [00:14<00:41,  1.47s/it]
 31%|███       | 12/39 [00:16<00:39,  1.47s/it]
 33%|███▎      | 13/39 [00:17<00:38,  1.48s/it]
 36%|███▌      | 14/39 [00:19<00:37,  1.48s/it]
 38%|███▊      | 15/39 [00:20<00:35,  1.48s/it]
 41%|████      | 16/39 [00:22<00:34,  1.48s/it]
 44%|████▎     | 17/39 [00:23<00:32,  1.49s/it]
 46%|████▌     | 18/39 [00:25<00:31,  1.49s/it]
 49%|████▊     | 19/39 [00:26<00:29,  1.49s/it]
 51%|█████▏    | 20/39 [00:28<00:28,  1.49s/it]
 54%|█████▍    | 21/39 [00:29<00:26,  1.49s/it]
 56%|█████▋    | 22/39 [00:31<00:25,  1.49s/it]
 59%|█████▉    | 23/39 [00:32<00:23,  1.49s/it]
 62%|██████▏   | 24/39 [00:34<00:22,  1.49s/it]
 64%|██████▍   | 25/39 [00:35<00:20,  1.49s/it]
 67%|██████▋   | 26/39 [00:37<00:19,  1.49s/it]
 69%|██████▉   | 27/39 [00:38<00:17,  1.49s/it]
 72%|███████▏  | 28/39 [00:40<00:16,  1.49s/it]
 74%|███████▍  | 29/39 [00:41<00:14,  1.49s/it]
 77%|███████▋  | 30/39 [00:43<00:13,  1.49s/it]
 79%|███████▉  | 31/39 [00:44<00:11,  1.49s/it]
 82%|████████▏ | 32/39 [00:46<00:10,  1.49s/it]
 85%|████████▍ | 33/39 [00:47<00:08,  1.49s/it]
 87%|████████▋ | 34/39 [00:49<00:07,  1.49s/it]
 90%|████████▉ | 35/39 [00:50<00:05,  1.49s/it]
 92%|█████████▏| 36/39 [00:52<00:04,  1.49s/it]
 95%|█████████▍| 37/39 [00:53<00:02,  1.49s/it]
 97%|█████████▋| 38/39 [00:54<00:01,  1.46s/it]

+***** train metrics *****
+  epoch                    =         3.0
+  total_flos               = 135380817GF
+  train_loss               =      2.5956
+  train_runtime            =  3:17:39.96
+  train_samples            =       90745
+  train_samples_per_second =      22.954
+  train_steps_per_second   =       0.957
+06/05/2024 06:23:37 - INFO - __main__ - *** Evaluate ***
+[INFO|trainer.py:3662] 2024-06-05 06:23:37,688 >> ***** Running Evaluation *****
+[INFO|trainer.py:3664] 2024-06-05 06:23:37,688 >>   Num examples = 1840
+[INFO|trainer.py:3667] 2024-06-05 06:23:37,688 >>   Batch size = 48
+/home/dshteyma/miniconda3/lib/python3.9/site-packages/torch/nn/parallel/_functions.py:68: UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.
+  warnings.warn('Was asked to gather along dimension 0, but all '
  0%|          | 0/39 [00:00<?, ?it/s]
  5%|▌         | 2/39 [00:01<00:27,  1.35it/s]
  8%|▊         | 3/39 [00:02<00:37,  1.06s/it]
 10%|█         | 4/39 [00:04<00:42,  1.22s/it]
 13%|█▎        | 5/39 [00:05<00:44,  1.31s/it]
 15%|█▌        | 6/39 [00:07<00:45,  1.37s/it]
 18%|█▊        | 7/39 [00:08<00:45,  1.41s/it]
 21%|██        | 8/39 [00:10<00:44,  1.43s/it]
 23%|██▎       | 9/39 [00:11<00:43,  1.45s/it]
 26%|██▌       | 10/39 [00:13<00:42,  1.46s/it]
 28%|██▊       | 11/39 [00:14<00:41,  1.47s/it]
 31%|███       | 12/39 [00:16<00:39,  1.47s/it]
 33%|███▎      | 13/39 [00:17<00:38,  1.48s/it]
 36%|███▌      | 14/39 [00:19<00:37,  1.48s/it]
 38%|███▊      | 15/39 [00:20<00:35,  1.48s/it]
 41%|████      | 16/39 [00:22<00:34,  1.48s/it]
 44%|████▎     | 17/39 [00:23<00:32,  1.49s/it]
 46%|████▌     | 18/39 [00:25<00:31,  1.49s/it]
 49%|████▊     | 19/39 [00:26<00:29,  1.49s/it]
 51%|█████▏    | 20/39 [00:28<00:28,  1.49s/it]
 54%|█████▍    | 21/39 [00:29<00:26,  1.49s/it]
 56%|█████▋    | 22/39 [00:31<00:25,  1.49s/it]
 59%|█████▉    | 23/39 [00:32<00:23,  1.49s/it]
 62%|██████▏   | 24/39 [00:34<00:22,  1.49s/it]
 64%|██████▍   | 25/39 [00:35<00:20,  1.49s/it]
 67%|██████▋   | 26/39 [00:37<00:19,  1.49s/it]
 69%|██████▉   | 27/39 [00:38<00:17,  1.49s/it]
 72%|███████▏  | 28/39 [00:40<00:16,  1.49s/it]
 74%|███████▍  | 29/39 [00:41<00:14,  1.49s/it]
 77%|███████▋  | 30/39 [00:43<00:13,  1.49s/it]
 79%|███████▉  | 31/39 [00:44<00:11,  1.49s/it]
 82%|████████▏ | 32/39 [00:46<00:10,  1.49s/it]
 85%|████████▍ | 33/39 [00:47<00:08,  1.49s/it]
 87%|████████▋ | 34/39 [00:49<00:07,  1.49s/it]
 90%|████████▉ | 35/39 [00:50<00:05,  1.49s/it]
 92%|█████████▏| 36/39 [00:52<00:04,  1.49s/it]
 95%|█████████▍| 37/39 [00:53<00:02,  1.49s/it]
 97%|█████████▋| 38/39 [00:54<00:01,  1.46s/it]
+[INFO|trainer.py:3353] 2024-06-05 06:24:50,968 >> Saving model checkpoint to ./training_outputs_job_117568_1_05-06_03-05
+[INFO|configuration_utils.py:471] 2024-06-05 06:24:50,983 >> Configuration saved in ./training_outputs_job_117568_1_05-06_03-05/config.json
+[INFO|configuration_utils.py:705] 2024-06-05 06:24:50,989 >> Configuration saved in ./training_outputs_job_117568_1_05-06_03-05/generation_config.json
+[INFO|modeling_utils.py:2592] 2024-06-05 06:24:51,930 >> Model weights saved in ./training_outputs_job_117568_1_05-06_03-05/model.safetensors
+[INFO|tokenization_utils_base.py:2503] 2024-06-05 06:24:51,943 >> tokenizer config file saved in ./training_outputs_job_117568_1_05-06_03-05/tokenizer_config.json
+[INFO|tokenization_utils_base.py:2512] 2024-06-05 06:24:51,948 >> Special tokens file saved in ./training_outputs_job_117568_1_05-06_03-05/special_tokens_map.json
+[INFO|modelcard.py:450] 2024-06-05 06:24:52,181 >> Dropping the following result as it does not have all the necessary fields:
+{'task': {'name': 'Causal Language Modeling', 'type': 'text-generation'}, 'metrics': [{'name': 'Accuracy', 'type': 'accuracy', 'value': 0.5813425267092882}]}
+***** eval metrics *****
+  epoch                   =        3.0
+  eval_accuracy           =     0.5813
+  eval_loss               =     2.3592
+  eval_runtime            = 0:01:13.26
+  eval_samples            =       1840
+  eval_samples_per_second =     25.115
+  eval_steps_per_second   =      0.532
+  perplexity              =     10.583

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.4536404559724544e+17,
+    "train_loss": 2.595605703293699,
+    "train_runtime": 11859.9653,
+    "train_samples": 90745,
+    "train_samples_per_second": 22.954,
+    "train_steps_per_second": 0.957
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,295 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 1000,
+  "global_step": 11346,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.13220518244315177,
+      "grad_norm": 0.8546391725540161,
+      "learning_rate": 8.816009873931059e-05,
+      "loss": 5.1118,
+      "step": 500
+    },
+    {
+      "epoch": 0.26441036488630354,
+      "grad_norm": 0.8593688607215881,
+      "learning_rate": 9.59831475011252e-05,
+      "loss": 3.406,
+      "step": 1000
+    },
+    {
+      "epoch": 0.26441036488630354,
+      "eval_accuracy": 0.5035306174465283,
+      "eval_loss": 3.23445987701416,
+      "eval_runtime": 74.0522,
+      "eval_samples_per_second": 24.847,
+      "eval_steps_per_second": 0.527,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3966155473294553,
+      "grad_norm": 0.9617258906364441,
+      "learning_rate": 9.134314230431938e-05,
+      "loss": 3.0005,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5288207297726071,
+      "grad_norm": 0.8953185677528381,
+      "learning_rate": 8.670313710751356e-05,
+      "loss": 2.8119,
+      "step": 2000
+    },
+    {
+      "epoch": 0.5288207297726071,
+      "eval_accuracy": 0.5365118094348038,
+      "eval_loss": 2.821384906768799,
+      "eval_runtime": 72.8065,
+      "eval_samples_per_second": 25.272,
+      "eval_steps_per_second": 0.536,
+      "step": 2000
+    },
+    {
+      "epoch": 0.6610259122157589,
+      "grad_norm": 1.4154396057128906,
+      "learning_rate": 8.206313191070773e-05,
+      "loss": 2.686,
+      "step": 2500
+    },
+    {
+      "epoch": 0.7932310946589106,
+      "grad_norm": 1.821349024772644,
+      "learning_rate": 7.742312671390191e-05,
+      "loss": 2.607,
+      "step": 3000
+    },
+    {
+      "epoch": 0.7932310946589106,
+      "eval_accuracy": 0.5497897240925214,
+      "eval_loss": 2.657219886779785,
+      "eval_runtime": 72.9553,
+      "eval_samples_per_second": 25.221,
+      "eval_steps_per_second": 0.535,
+      "step": 3000
+    },
+    {
+      "epoch": 0.9254362771020624,
+      "grad_norm": 2.0297396183013916,
+      "learning_rate": 7.278312151709609e-05,
+      "loss": 2.5642,
+      "step": 3500
+    },
+    {
+      "epoch": 1.0576414595452142,
+      "grad_norm": 2.8318285942077637,
+      "learning_rate": 6.814311632029027e-05,
+      "loss": 2.4734,
+      "step": 4000
+    },
+    {
+      "epoch": 1.0576414595452142,
+      "eval_accuracy": 0.5582058048894458,
+      "eval_loss": 2.5735702514648438,
+      "eval_runtime": 73.5253,
+      "eval_samples_per_second": 25.025,
+      "eval_steps_per_second": 0.53,
+      "step": 4000
+    },
+    {
+      "epoch": 1.189846641988366,
+      "grad_norm": 2.178349018096924,
+      "learning_rate": 6.350311112348446e-05,
+      "loss": 2.4542,
+      "step": 4500
+    },
+    {
+      "epoch": 1.3220518244315178,
+      "grad_norm": 2.944026470184326,
+      "learning_rate": 5.886310592667864e-05,
+      "loss": 2.4335,
+      "step": 5000
+    },
+    {
+      "epoch": 1.3220518244315178,
+      "eval_accuracy": 0.5617462458316518,
+      "eval_loss": 2.5335800647735596,
+      "eval_runtime": 73.7726,
+      "eval_samples_per_second": 24.941,
+      "eval_steps_per_second": 0.529,
+      "step": 5000
+    },
+    {
+      "epoch": 1.4542570068746694,
+      "grad_norm": 3.0737102031707764,
+      "learning_rate": 5.422310072987282e-05,
+      "loss": 2.4012,
+      "step": 5500
+    },
+    {
+      "epoch": 1.5864621893178212,
+      "grad_norm": 3.8758912086486816,
+      "learning_rate": 4.9583095533066995e-05,
+      "loss": 2.3858,
+      "step": 6000
+    },
+    {
+      "epoch": 1.5864621893178212,
+      "eval_accuracy": 0.5662889488328625,
+      "eval_loss": 2.4896483421325684,
+      "eval_runtime": 73.8595,
+      "eval_samples_per_second": 24.912,
+      "eval_steps_per_second": 0.528,
+      "step": 6000
+    },
+    {
+      "epoch": 1.718667371760973,
+      "grad_norm": 7.714890956878662,
+      "learning_rate": 4.4943090336261176e-05,
+      "loss": 2.3797,
+      "step": 6500
+    },
+    {
+      "epoch": 1.8508725542041247,
+      "grad_norm": 7.321514129638672,
+      "learning_rate": 4.030308513945535e-05,
+      "loss": 2.374,
+      "step": 7000
+    },
+    {
+      "epoch": 1.8508725542041247,
+      "eval_accuracy": 0.5680874450415242,
+      "eval_loss": 2.4711225032806396,
+      "eval_runtime": 73.2926,
+      "eval_samples_per_second": 25.105,
+      "eval_steps_per_second": 0.532,
+      "step": 7000
+    },
+    {
+      "epoch": 1.9830777366472767,
+      "grad_norm": 5.710904598236084,
+      "learning_rate": 3.566307994264953e-05,
+      "loss": 2.3445,
+      "step": 7500
+    },
+    {
+      "epoch": 2.1152829190904283,
+      "grad_norm": 16.555458068847656,
+      "learning_rate": 3.1023074745843715e-05,
+      "loss": 2.3044,
+      "step": 8000
+    },
+    {
+      "epoch": 2.1152829190904283,
+      "eval_accuracy": 0.5701761326225017,
+      "eval_loss": 2.4485366344451904,
+      "eval_runtime": 73.4687,
+      "eval_samples_per_second": 25.045,
+      "eval_steps_per_second": 0.531,
+      "step": 8000
+    },
+    {
+      "epoch": 2.24748810153358,
+      "grad_norm": 6.3735737800598145,
+      "learning_rate": 2.6383069549037897e-05,
+      "loss": 2.2922,
+      "step": 8500
+    },
+    {
+      "epoch": 2.379693283976732,
+      "grad_norm": 19.310932159423828,
+      "learning_rate": 2.1743064352232075e-05,
+      "loss": 2.2873,
+      "step": 9000
+    },
+    {
+      "epoch": 2.379693283976732,
+      "eval_accuracy": 0.5747236146216096,
+      "eval_loss": 2.413153886795044,
+      "eval_runtime": 73.9,
+      "eval_samples_per_second": 24.899,
+      "eval_steps_per_second": 0.528,
+      "step": 9000
+    },
+    {
+      "epoch": 2.5118984664198836,
+      "grad_norm": 6.743342876434326,
+      "learning_rate": 1.7103059155426253e-05,
+      "loss": 2.2626,
+      "step": 9500
+    },
+    {
+      "epoch": 2.6441036488630356,
+      "grad_norm": 9.461324691772461,
+      "learning_rate": 1.2463053958620433e-05,
+      "loss": 2.2669,
+      "step": 10000
+    },
+    {
+      "epoch": 2.6441036488630356,
+      "eval_accuracy": 0.5778246532571526,
+      "eval_loss": 2.387904167175293,
+      "eval_runtime": 73.5959,
+      "eval_samples_per_second": 25.001,
+      "eval_steps_per_second": 0.53,
+      "step": 10000
+    },
+    {
+      "epoch": 2.776308831306187,
+      "grad_norm": 10.6486234664917,
+      "learning_rate": 7.823048761814613e-06,
+      "loss": 2.2557,
+      "step": 10500
+    },
+    {
+      "epoch": 2.908514013749339,
+      "grad_norm": 8.470663070678711,
+      "learning_rate": 3.183043565008793e-06,
+      "loss": 2.2463,
+      "step": 11000
+    },
+    {
+      "epoch": 2.908514013749339,
+      "eval_accuracy": 0.5807555064675771,
+      "eval_loss": 2.363588571548462,
+      "eval_runtime": 73.5703,
+      "eval_samples_per_second": 25.01,
+      "eval_steps_per_second": 0.53,
+      "step": 11000
+    },
+    {
+      "epoch": 3.0,
+      "step": 11346,
+      "total_flos": 1.4536404559724544e+17,
+      "train_loss": 2.595605703293699,
+      "train_runtime": 11859.9653,
+      "train_samples_per_second": 22.954,
+      "train_steps_per_second": 0.957
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 11346,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.4536404559724544e+17,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}