KBLab
/

megatron.bert-base.bpe-32k-no_pretok.25k-steps

@@ -4,16 +4,15 @@ language:
 ---
-# megatron.bert-base.bpe-64k-no_pretok.25k-steps
 This BERT model was trained using the NeMo library.
-The size of the model is a regular bert-base.
 The model was trained on more than 245GB of data, consisting mostly of web-data and Swedish newspaper text curated by the National Library of Sweden.
 Training was done for 25k training steps using a batch size of 8k.
 The model has multiple sibling models trained on the same dataset using different tokenizers or more/less parameters:
 - [megatron.bert-base.bpe-32k-no_pretok.25k-steps](https://huggingface.co/KBLab/megatron.bert-base.bpe-32k-no_pretok.25k-steps)
 - [megatron.bert-base.bpe-64k-no_pretok.25k-steps](https://huggingface.co/KBLab/megatron.bert-base.bpe-64k-no_pretok.25k-steps)
 - [megatron.bert-base.spe-bpe-32k-no_pretok.25k-steps](https://huggingface.co/KBLab/megatron.bert-base.spe-bpe-32k-no_pretok.25k-steps)

 ---
+# megatron.bert-base.bpe-32k-no_pretok.25k-steps
 This BERT model was trained using the NeMo library.
+The size of the model is a regular bert-large.
 The model was trained on more than 245GB of data, consisting mostly of web-data and Swedish newspaper text curated by the National Library of Sweden.
 Training was done for 25k training steps using a batch size of 8k.
 The model has multiple sibling models trained on the same dataset using different tokenizers or more/less parameters:
 - [megatron.bert-base.bpe-32k-no_pretok.25k-steps](https://huggingface.co/KBLab/megatron.bert-base.bpe-32k-no_pretok.25k-steps)
 - [megatron.bert-base.bpe-64k-no_pretok.25k-steps](https://huggingface.co/KBLab/megatron.bert-base.bpe-64k-no_pretok.25k-steps)
 - [megatron.bert-base.spe-bpe-32k-no_pretok.25k-steps](https://huggingface.co/KBLab/megatron.bert-base.spe-bpe-32k-no_pretok.25k-steps)