training models after 12500 checkpoints

Files changed (9) hide show

.gitignore +1 -0
README.md +67 -0
all_results.json +15 -0
config.json +2 -0
eval_results.json +10 -0
pytorch_model.bin +3 -0
train_results.json +8 -0
trainer_state.json +178 -0
training_args.bin +3 -0

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ checkpoint-*

README.md CHANGED Viewed

@@ -1,3 +1,70 @@
 ---
 license: mit
 ---

 ---
 license: mit
+base_model: alayaran/bodo-roberta-base-sentencepiece-mlm
+tags:
+- generated_from_trainer
+datasets:
+- alayaran/bodo-monolingual-dataset
+metrics:
+- accuracy
+model-index:
+- name: bodo-roberta-base-sentencepiece-mlm
+  results:
+  - task:
+      name: Masked Language Modeling
+      type: fill-mask
+    dataset:
+      name: alayaran/bodo-monolingual-dataset
+      type: alayaran/bodo-monolingual-dataset
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.1152087425920729
 ---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# bodo-roberta-base-sentencepiece-mlm
+This model is a fine-tuned version of [alayaran/bodo-roberta-base-sentencepiece-mlm](https://huggingface.co/alayaran/bodo-roberta-base-sentencepiece-mlm) on the alayaran/bodo-monolingual-dataset dataset.
+It achieves the following results on the evaluation set:
+- Loss: 7.6855
+- Accuracy: 0.1152
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0003
+- train_batch_size: 96
+- eval_batch_size: 96
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.98) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 1000
+- num_epochs: 18.0
+### Training results
+### Framework versions
+- Transformers 4.34.0.dev0
+- Pytorch 2.0.1+cu117
+- Datasets 2.14.5
+- Tokenizers 0.13.3

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 18.0,
+    "eval_accuracy": 0.1152087425920729,
+    "eval_loss": 7.685478687286377,
+    "eval_runtime": 21.3043,
+    "eval_samples": 3169,
+    "eval_samples_per_second": 148.749,
+    "eval_steps_per_second": 1.596,
+    "perplexity": 2176.5115927098177,
+    "train_loss": 7.551853012219131,
+    "train_runtime": 21104.0201,
+    "train_samples": 66691,
+    "train_samples_per_second": 56.882,
+    "train_steps_per_second": 0.593
+}

config.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "architectures": [
     "RobertaForMaskedLM"
   ],
@@ -18,6 +19,7 @@
   "num_hidden_layers": 12,
   "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "transformers_version": "4.34.0.dev0",
   "type_vocab_size": 1,
   "use_cache": true,

 {
+  "_name_or_path": "alayaran/bodo-roberta-base-sentencepiece-mlm",
   "architectures": [
     "RobertaForMaskedLM"
   ],
   "num_hidden_layers": 12,
   "pad_token_id": 1,
   "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
   "transformers_version": "4.34.0.dev0",
   "type_vocab_size": 1,
   "use_cache": true,

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 18.0,
+    "eval_accuracy": 0.1152087425920729,
+    "eval_loss": 7.685478687286377,
+    "eval_runtime": 21.3043,
+    "eval_samples": 3169,
+    "eval_samples_per_second": 148.749,
+    "eval_steps_per_second": 1.596,
+    "perplexity": 2176.5115927098177
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:898d7268b5c83e8eaf722cd03a95229f2acb8aedb13c6baf8f9f53b70576c237
+size 498859189

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 18.0,
+    "train_loss": 7.551853012219131,
+    "train_runtime": 21104.0201,
+    "train_samples": 66691,
+    "train_samples_per_second": 56.882,
+    "train_steps_per_second": 0.593
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,178 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 18.0,
+  "eval_steps": 10.0,
+  "global_step": 12510,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00015,
+      "loss": 9.1947,
+      "step": 500
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0003,
+      "loss": 8.2402,
+      "step": 1000
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.0002869678540399652,
+      "loss": 7.9884,
+      "step": 1500
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.00027393570807993046,
+      "loss": 7.857,
+      "step": 2000
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 0.0002609035621198957,
+      "loss": 7.7651,
+      "step": 2500
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 0.00024787141615986095,
+      "loss": 7.7077,
+      "step": 3000
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 0.0002348392701998262,
+      "loss": 7.6652,
+      "step": 3500
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 0.00022180712423979147,
+      "loss": 7.6063,
+      "step": 4000
+    },
+    {
+      "epoch": 6.47,
+      "learning_rate": 0.0002087749782797567,
+      "loss": 7.5724,
+      "step": 4500
+    },
+    {
+      "epoch": 7.19,
+      "learning_rate": 0.00019574283231972196,
+      "loss": 7.5367,
+      "step": 5000
+    },
+    {
+      "epoch": 7.91,
+      "learning_rate": 0.0001827106863596872,
+      "loss": 7.5095,
+      "step": 5500
+    },
+    {
+      "epoch": 8.63,
+      "learning_rate": 0.00016967854039965247,
+      "loss": 7.4663,
+      "step": 6000
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 0.0001566463944396177,
+      "loss": 7.4449,
+      "step": 6500
+    },
+    {
+      "epoch": 10.07,
+      "learning_rate": 0.00014361424847958296,
+      "loss": 7.4104,
+      "step": 7000
+    },
+    {
+      "epoch": 10.79,
+      "learning_rate": 0.0001305821025195482,
+      "loss": 7.3748,
+      "step": 7500
+    },
+    {
+      "epoch": 11.51,
+      "learning_rate": 0.00011754995655951345,
+      "loss": 7.3498,
+      "step": 8000
+    },
+    {
+      "epoch": 12.23,
+      "learning_rate": 0.00010451781059947871,
+      "loss": 7.336,
+      "step": 8500
+    },
+    {
+      "epoch": 12.95,
+      "learning_rate": 9.148566463944395e-05,
+      "loss": 7.3068,
+      "step": 9000
+    },
+    {
+      "epoch": 13.67,
+      "learning_rate": 7.84535186794092e-05,
+      "loss": 7.2688,
+      "step": 9500
+    },
+    {
+      "epoch": 14.39,
+      "learning_rate": 6.542137271937446e-05,
+      "loss": 7.2559,
+      "step": 10000
+    },
+    {
+      "epoch": 15.11,
+      "learning_rate": 5.23892267593397e-05,
+      "loss": 7.2261,
+      "step": 10500
+    },
+    {
+      "epoch": 15.83,
+      "learning_rate": 3.935708079930495e-05,
+      "loss": 7.2057,
+      "step": 11000
+    },
+    {
+      "epoch": 16.55,
+      "learning_rate": 2.6324934839270198e-05,
+      "loss": 7.1874,
+      "step": 11500
+    },
+    {
+      "epoch": 17.27,
+      "learning_rate": 1.3292788879235446e-05,
+      "loss": 7.1699,
+      "step": 12000
+    },
+    {
+      "epoch": 17.99,
+      "learning_rate": 2.60642919200695e-07,
+      "loss": 7.1585,
+      "step": 12500
+    },
+    {
+      "epoch": 18.0,
+      "step": 12510,
+      "total_flos": 7.900846655703091e+16,
+      "train_loss": 7.551853012219131,
+      "train_runtime": 21104.0201,
+      "train_samples_per_second": 56.882,
+      "train_steps_per_second": 0.593
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 12510,
+  "num_train_epochs": 18,
+  "save_steps": 2500,
+  "total_flos": 7.900846655703091e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69e5b4a4749d0ff2680cdcde48416137866776d630f9a07e1f357594d5c75d91
+size 4091