End of training

Browse files

Files changed (5) hide show

README.md +11 -42
config.json +1 -1
generation_config.json +1 -1
pytorch_model.bin +2 -2
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -15,7 +15,12 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [Karzan/gpt2-walamakan-2](https://huggingface.co/Karzan/gpt2-walamakan-2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 6.9220
 ## Model description
@@ -35,54 +40,18 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 3e-05
-- train_batch_size: 16
-- eval_batch_size: 16
 - seed: 42
 - gradient_accumulation_steps: 4
-- total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - num_epochs: 30
-### Training results
-| Training Loss | Epoch | Step | Validation Loss |
-|:-------------:|:-----:|:----:|:---------------:|
-| 0.2697        | 1.0   | 47   | 6.7283          |
-| 0.2562        | 2.0   | 94   | 6.7642          |
-| 0.2491        | 3.0   | 141  | 6.7544          |
-| 0.2403        | 4.0   | 188  | 6.7617          |
-| 0.2332        | 5.0   | 235  | 6.7501          |
-| 0.2287        | 6.0   | 282  | 6.7719          |
-| 0.2178        | 7.0   | 329  | 6.7966          |
-| 0.2111        | 8.0   | 376  | 6.8080          |
-| 0.2051        | 9.0   | 423  | 6.8298          |
-| 0.1984        | 10.0  | 470  | 6.8288          |
-| 0.1933        | 11.0  | 517  | 6.8321          |
-| 0.1896        | 12.0  | 564  | 6.8422          |
-| 0.1829        | 13.0  | 611  | 6.8685          |
-| 0.1762        | 14.0  | 658  | 6.8504          |
-| 0.1757        | 15.0  | 705  | 6.8636          |
-| 0.1695        | 16.0  | 752  | 6.8704          |
-| 0.165         | 17.0  | 799  | 6.8803          |
-| 0.1617        | 18.0  | 846  | 6.8826          |
-| 0.159         | 19.0  | 893  | 6.8774          |
-| 0.1557        | 20.0  | 940  | 6.8872          |
-| 0.152         | 21.0  | 987  | 6.8998          |
-| 0.1473        | 22.0  | 1034 | 6.8998          |
-| 0.1455        | 23.0  | 1081 | 6.9136          |
-| 0.1425        | 24.0  | 1128 | 6.9149          |
-| 0.1392        | 25.0  | 1175 | 6.9105          |
-| 0.1395        | 26.0  | 1222 | 6.9167          |
-| 0.136         | 27.0  | 1269 | 6.9145          |
-| 0.1355        | 28.0  | 1316 | 6.9185          |
-| 0.1335        | 29.0  | 1363 | 6.9192          |
-| 0.1322        | 30.0  | 1410 | 6.9220          |
 ### Framework versions
-- Transformers 4.32.0
-- Pytorch 2.1.0.dev20230605+cu121
 - Datasets 2.14.4
 - Tokenizers 0.13.3

 This model is a fine-tuned version of [Karzan/gpt2-walamakan-2](https://huggingface.co/Karzan/gpt2-walamakan-2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- eval_loss: 6.8668
+- eval_runtime: 6.2614
+- eval_samples_per_second: 15.971
+- eval_steps_per_second: 7.985
+- epoch: 13.0
+- step: 4881
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 3e-05
+- train_batch_size: 2
+- eval_batch_size: 2
 - seed: 42
 - gradient_accumulation_steps: 4
+- total_train_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - num_epochs: 30
 ### Framework versions
+- Transformers 4.32.1
+- Pytorch 2.0.1+cu118
 - Datasets 2.14.4
 - Tokenizers 0.13.3

config.json CHANGED Viewed

@@ -26,7 +26,7 @@
   "summary_type": "cls_index",
   "summary_use_proj": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.32.0",
   "use_cache": true,
   "vocab_size": 184789
 }

   "summary_type": "cls_index",
   "summary_use_proj": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
   "use_cache": true,
   "vocab_size": 184789
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 0,
   "eos_token_id": 0,
-  "transformers_version": "4.32.0"
 }

   "_from_model_config": true,
   "bos_token_id": 0,
   "eos_token_id": 0,
+  "transformers_version": "4.32.1"
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:797010b0cad8c4e1d13d37e8d571d46451965da2b8a6061561052d8b8092e4da
-size 854379130

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c25f6da097c90e3800730a1a64451bae23689f25da9284743bf0bfae0f07629
+size 854378685

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc147e07f8fdde37b903b4976ca1ee40f9d2e4008c92304b184ca10e340d5ff2
-size 4472

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbac9accf54c62a7bef980227ae76577e7663496ae25a08d1c8fe8eca3ed1860
+size 4027