End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -2,11 +2,23 @@
 library_name: transformers
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: opt-babylm2-clean-spacy-32k_seed-42_1e-3
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -14,7 +26,7 @@ should probably proofread and complete it, then remove this comment. -->
 # opt-babylm2-clean-spacy-32k_seed-42_1e-3
-This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.0380
 - Accuracy: 0.4233

 library_name: transformers
 tags:
 - generated_from_trainer
+datasets:
+- kanishka/babylm2-clean-spacy
 metrics:
 - accuracy
 model-index:
 - name: opt-babylm2-clean-spacy-32k_seed-42_1e-3
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: kanishka/babylm2-clean-spacy
+      type: kanishka/babylm2-clean-spacy
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.4232865945768086
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # opt-babylm2-clean-spacy-32k_seed-42_1e-3
+This model was trained from scratch on the kanishka/babylm2-clean-spacy dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.0380
 - Accuracy: 0.4233

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.4239814649263961,
-    "eval_loss": 3.035736322402954,
-    "eval_runtime": 112.5567,
-    "eval_samples": 52640,
-    "eval_samples_per_second": 467.675,
-    "eval_steps_per_second": 7.312,
-    "perplexity": 20.816299765730864,
-    "total_flos": 1.30265052217344e+18,
-    "train_loss": 2.6546336687942524,
-    "train_runtime": 44210.8645,
-    "train_samples": 498542,
-    "train_samples_per_second": 225.529,
-    "train_steps_per_second": 7.048
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.4232865945768086,
+    "eval_loss": 3.037959337234497,
+    "eval_runtime": 112.5812,
+    "eval_samples": 52440,
+    "eval_samples_per_second": 465.797,
+    "eval_steps_per_second": 7.284,
+    "perplexity": 20.862626181925105,
+    "total_flos": 1.29957250203648e+18,
+    "train_loss": 2.656636161733025,
+    "train_runtime": 44071.5037,
+    "train_samples": 497364,
+    "train_samples_per_second": 225.708,
+    "train_steps_per_second": 7.054
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.4239814649263961,
-    "eval_loss": 3.035736322402954,
-    "eval_runtime": 112.5567,
-    "eval_samples": 52640,
-    "eval_samples_per_second": 467.675,
-    "eval_steps_per_second": 7.312,
-    "perplexity": 20.816299765730864
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.4232865945768086,
+    "eval_loss": 3.037959337234497,
+    "eval_runtime": 112.5812,
+    "eval_samples": 52440,
+    "eval_samples_per_second": 465.797,
+    "eval_steps_per_second": 7.284,
+    "perplexity": 20.862626181925105
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 20.0,
-    "total_flos": 1.30265052217344e+18,
-    "train_loss": 2.6546336687942524,
-    "train_runtime": 44210.8645,
-    "train_samples": 498542,
-    "train_samples_per_second": 225.529,
-    "train_steps_per_second": 7.048
 }

 {
     "epoch": 20.0,
+    "total_flos": 1.29957250203648e+18,
+    "train_loss": 2.656636161733025,
+    "train_runtime": 44071.5037,
+    "train_samples": 497364,
+    "train_samples_per_second": 225.708,
+    "train_steps_per_second": 7.054
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff