# GPT2 - Persian ## Scripts ### Normalizer ```python from src.normalizer import normalize input_text = "ὑ蕉Ұ제ṅ尘̲改座◦花芝秀黄天자埃澤ಿ ˈazbab اینجا ایران خانه‌شما است؟!۱۲۳۱۲۳۱۳۱۲ اَلْحُرُوفُ ٱلْعَرَبِیَّة" print(normalize(input_text)) ``` Output: ```text azbab اینجا ایران خانه‌شما است ؟ ! 1231231312 الحروف لعربیه ``` ### Training tokenizer ```bash python train_tokenizer.py --dataset_name oscar --dataset_config_name unshuffled_deduplicated_als --vocab_size 42000 ``` ### Configuration ```bash python create_config.py --name_or_path gpt2-medium --params '{"vocab_size": 42000}' ```