TRI-ML
/

DCLM-1B-v0

achal-tri commited on Jul 18, 2024

Commit

8ceb934

•

1 Parent(s): 6a413ee

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -14,7 +14,7 @@ DCLM-1B is a 1.4 billion parameter language model trained on the DCLM-Baseline d
 ## Model Details
 | Size | Training Tokens | Layers | Hidden Size | Attention Heads | Context Length |
-|------|-----------------|--------|-------------|-----------------|----------------|
 | 1.4B   | 2.6T            | 24     | 2048        | 16              | 2048           |
@@ -121,7 +121,7 @@ We evaluate the models using llm-foundry.
 | Task    | Core | Extended | MMLU 5-shot |
-|---------|------|----------|-------------|
 | DCLM-1B | 42.3 | 25.1     | 41.9        |
 | SmolLM  | 36.3 | 21.2     | 30.0        |

 ## Model Details
 | Size | Training Tokens | Layers | Hidden Size | Attention Heads | Context Length |
+|:------:|:-----------------:|:--------:|:-------------:|:-----------------:|:----------------:|
 | 1.4B   | 2.6T            | 24     | 2048        | 16              | 2048           |
 | Task    | Core | Extended | MMLU 5-shot |
+|:---------:|:------:|:----------:|:-------------:|
 | DCLM-1B | 42.3 | 25.1     | 41.9        |
 | SmolLM  | 36.3 | 21.2     | 30.0        |