entai2965
/

nllb-200-3.3B-ctranslate2

Translation

nllb

nmt

Model card Files Files and versions Community

entai2965 commited on Nov 20, 2024

Commit

33acf12

verified ·

1 Parent(s): f39dd1c

Update README.md

Browse files

Files changed (1) hide show

README.md +85 -0

README.md CHANGED Viewed

@@ -319,6 +319,91 @@ target = results[0].hypotheses[0][1:]
 print(tokenizer.decode(tokenizer.convert_tokens_to_ids(target)))
 ```
 ## Available languages
 - https://github.com/facebookresearch/flores/blob/main/flores200/README.md#languages-in-flores-200

 print(tokenizer.decode(tokenizer.convert_tokens_to_ids(target)))
 ```
+## How to run this model (batch syntax)
+```
+import os
+import ctranslate2
+import transformers
+#set defaults
+home_path=os.path.expanduser('~')
+#model_folder=home_path+'/Downloads/models/nllb-200-distilled-600M-ctranslate2' #3 GB of memory
+#model_folder=home_path+'/Downloads/models/nllb-200-distilled-1.3B-ctranslate2' #5.5 GB of memory
+#model_folder=home_path+'/Downloads/models/nllb-200-3.3B-ctranslate2-float16' #13 GB of memory in almost all cases, 7.6 GB on CUDA + GeForce RTX 2000 series and newer
+model_folder=home_path+'/Downloads/models/nllb-200-3.3B-ctranslate2'  #13 GB of memory
+string1='Hello world!'
+string2='Awesome.'
+raw_list=[string1, string2]
+#https://github.com/facebookresearch/flores/blob/main/flores200/README.md#languages-in-flores-200
+source_language_code = "eng_Latn"
+target_language_code = "fra_Latn"
+device='cpu'
+#device='cuda'
+#load models
+translator = ctranslate2.Translator(model_folder,device=device)
+tokenizer = transformers.AutoTokenizer.from_pretrained(model_folder, src_lang=source_language_code, clean_up_tokenization_spaces=True)
+#tokenize input
+encoded_list=[]
+for text in raw_list:
+    encoded_list.append(tokenizer.convert_ids_to_tokens(tokenizer.encode(text)))
+#translate
+#https://opennmt.net/CTranslate2/python/ctranslate2.Translator.html?#ctranslate2.Translator.translate_batch
+translated_list = translator.translate_batch(encoded_list, target_prefix=[[target_language_code]]*len(raw_list))
+assert(len(raw_list)==len(translated_list))
+#decode
+for counter,tokens in enumerate(translated_list):
+    translated_list[counter]=tokenizer.decode(tokenizer.convert_tokens_to_ids(tokens.hypotheses[0][1:]))
+#output
+for text in translated_list:
+    print(text)
+```
+[Functional programming](https://docs.python.org/3/howto/functional.html) version
+```
+import os
+import ctranslate2
+import transformers
+#set defaults
+home_path=os.path.expanduser('~')
+#model_folder=home_path+'/Downloads/models/nllb-200-distilled-600M-ctranslate2' #3 GB of memory
+#model_folder=home_path+'/Downloads/models/nllb-200-distilled-1.3B-ctranslate2' #5.5 GB of memory
+#model_folder=home_path+'/Downloads/models/nllb-200-3.3B-ctranslate2-float16' #13 GB of memory in almost all cases, 7.6 GB on CUDA + GeForce RTX 2000 series and newer
+model_folder=home_path+'/Downloads/models/nllb-200-3.3B-ctranslate2'  #13 GB of memory
+string1='Hello world!'
+string2='Awesome.'
+raw_list=[string1, string2]
+#https://github.com/facebookresearch/flores/blob/main/flores200/README.md#languages-in-flores-200
+source_language_code = "eng_Latn"
+target_language_code = "fra_Latn"
+device='cpu'
+#device='cuda'
+#load models
+translator = ctranslate2.Translator(model_folder,device=device)
+tokenizer = transformers.AutoTokenizer.from_pretrained(model_folder, src_lang=source_language_code, clean_up_tokenization_spaces=True)
+#invoke black magic
+translated_list=[tokenizer.decode(tokenizer.convert_tokens_to_ids(tokens.hypotheses[0][1:])) for tokens in translator.translate_batch([tokenizer.convert_ids_to_tokens(tokenizer.encode(text)) for text in raw_list], target_prefix=[[target_language_code]]*len(raw_list))]
+assert(len(raw_list)==len(translated_list))
+#output
+for text in translated_list:
+    print(text)
+```
 ## Available languages
 - https://github.com/facebookresearch/flores/blob/main/flores200/README.md#languages-in-flores-200