nilq
/

baby-tokenizer

Model card Files Files and versions Community

nilq commited on Jan 21

Commit

33886d8

•

1 Parent(s): 3b07e52

Update README.md

Files changed (1) hide show

README.md +5 -2

README.md CHANGED Viewed

@@ -2,11 +2,14 @@
 license: mit
 language:
 - en
 ---
 ## Baby Tokenizer
-Compact sentencepiece tokenizer for sample-efficient English language modeling.
 ### Data
@@ -21,4 +24,4 @@ This tokeniser is derived from the BabyLM 100M dataset of mixed domain data, con
 - Vocabulary size: 20k
 - Alphabet limit: 150
-- Minimum token frequency: 5

 license: mit
 language:
 - en
+tags:
+- babylm
+- tokenizer
 ---
 ## Baby Tokenizer
+Compact sentencepiece tokenizer for sample-efficient English language modeling, simply tokenizing natural language.
 ### Data
 - Vocabulary size: 20k
 - Alphabet limit: 150
+- Minimum token frequency: 100