muntasir2000
/

titu_lm_55gb_72k

Model card Files Files and versions Community

muntasir2000 commited on Nov 12, 2023

Commit

10f8197

•

1 Parent(s): ad15617

Update tokenization_bn.py

Files changed (1) hide show

tokenization_bn.py +2 -1

tokenization_bn.py CHANGED Viewed

@@ -48,10 +48,11 @@ class BNTokenizer(PreTrainedTokenizer):
     def __init__(self, vocab_file, bos_token=None, eos_token='</s>', unk_token='<unk>', pad_token='<|reserved001|>', sep_token=None, sp_model_kwargs: Optional[Dict[str, Any]]=None, **kwargs) -> None:
         self.sp_model_kwargs = {} if sp_model_kwargs is None else sp_model_kwargs
-        super().__init__(bos_token=bos_token, eos_token=eos_token, unk_token=unk_token, pad_token=pad_token, sep_token=sep_token, sp_model_kwargs=self.sp_model_kwargs, **kwargs)
         self.vocab_file = vocab_file
         self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)
         self.sp_model.Load(vocab_file)
     @property
     def vocab_size(self):

     def __init__(self, vocab_file, bos_token=None, eos_token='</s>', unk_token='<unk>', pad_token='<|reserved001|>', sep_token=None, sp_model_kwargs: Optional[Dict[str, Any]]=None, **kwargs) -> None:
         self.sp_model_kwargs = {} if sp_model_kwargs is None else sp_model_kwargs
         self.vocab_file = vocab_file
         self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)
         self.sp_model.Load(vocab_file)
+        super().__init__(bos_token=bos_token, eos_token=eos_token, unk_token=unk_token, pad_token=pad_token, sep_token=sep_token, sp_model_kwargs=self.sp_model_kwargs, **kwargs)
     @property
     def vocab_size(self):