--- datasets: - oscar-corpus/OSCAR-2301 language: - az library_name: transformers --- Roberta base model trained on Azerbaijani subset of OSCAR corpus. ## Usage ```python from transformers import AutoTokenizer, AutoModelWithLMHead tokenizer = AutoTokenizer.from_pretrained("iamdenay/roberta-azerbaijani") model = AutoModelWithLMHead.from_pretrained("iamdenay/roberta-azerbaijani") ``` ```python from transformers import pipeline model_mask = pipeline('fill-mask', model='iamdenay/roberta-azerbaijani') model_mask("Le tweet .") ``` ## Examples ```python fill_mask("azərtac xəbər ki") ``` ``` [{'sequence': 'azərtac xəbər verir ki', 'score': 0.9791690707206726, 'token': 1053, 'token_str': ' verir'}, {'sequence': 'azərtac xəbər verib ki', 'score': 0.004408467561006546, 'token': 2313, 'token_str': ' verib'}, {'sequence': 'azərtac xəbər yayıb ki', 'score': 0.00216124439612031, 'token': 6580, 'token_str': ' yayıb'}, {'sequence': 'azərtac xəbər agentliyi ki', 'score': 0.0014381826622411609, 'token': 14711, 'token_str': ' agentliyi'}, {'sequence': 'azərtac xəbəraz ki', 'score': 0.0012858203845098615, 'token': 320, 'token_str': 'az'}] ``` ```python fill_mask("Mənə o yumşaq fransız bulkalarından çox ver") ``` ``` [{'sequence': 'Mənə o yumşaq fransız bulkalarından daha çox ver', 'score': 0.5982716083526611, 'token': 716, 'token_str': ' daha'}, {'sequence': 'Mənə o yumşaq fransız bulkalarından bir çox ver', 'score': 0.1061108186841011, 'token': 374, 'token_str': ' bir'}, {'sequence': 'Mənə o yumşaq fransız bulkalarından biri çox ver', 'score': 0.05577299743890762, 'token': 1331, 'token_str': ' biri'}, {'sequence': 'Mənə o yumşaq fransız bulkalarından ən çox ver', 'score': 0.029407601803541183, 'token': 745, 'token_str': ' ən'}, {'sequence': 'Mənə o yumşaq fransız bulkalarından çox çox ver', 'score': 0.011952652595937252, 'token': 524, 'token_str': ' çox'}] ``` ## Config ```json attention_probs_dropout_prob:0.1 bos_token_id:0 classifier_dropout:null eos_token_id:2 gradient_checkpointing:false hidden_act:"gelu" hidden_dropout_prob:0.1 hidden_size:768 initializer_range:0.02 intermediate_size:3072 layer_norm_eps:1e-12 max_position_embeddings:514 model_type:"roberta" num_attention_heads:12 num_hidden_layers:6 pad_token_id:1 position_embedding_type:"absolute" torch_dtype:"float32" transformers_version:"4.10.0" type_vocab_size:1 use_cache:true vocab_size:52000 ```