--- language: "ca" tags: - masked-lm --- # BERTa: RoBERTa-based Catalan language model ## Model description BERTa is transformer-based masked language model for the Catalan language. It is based on the RoBERTA architecture in its base version and has been trained on a large-scale corpus collected from publicly available corpora and crawlers (more details in the next section) ## Training data The training corpus consists of several corpora gathered from web crawling and public corpora. The publicly available corpora are: 1. the Catalan part of the DOGC corpus, a set of documents from the Official Gazette of the Catalan Government 2. the Catalan Open Subtitles, a collection of translated movie subtitles \cite{tiedemann2012parallel} 3. the non-shuffled version of the Catalan part of the OSCAR corpus \cite{suarez2019asynchronous}, a collection of monolingual corpora, filtered from Common Crawl \footnote{https://commoncrawl.org/about/} 4. The CaWac corpus, a web corpus of Catalan built from the .cat top-level-domain in late 2013 \cite{ljubesic2014cawac}, the non-deduplicated version 5. the Catalan Wikipedia articles downloaded on 18-08-2020. The crawled corpora are: 6. The Catalan General Crawling, obtained by crawling the 500 most popular .cat and .ad domains; ( 7. the Catalan Government Crawling, obtained by crawling the .gencat domain and subdomains, belonging to the Catalan Government; 8. the ACN corpus with 220k news items from March 2015 until October 2020, crawled from the Catalan News Agency\footnote{https://www.acn.cat/}. Our new Catalan text corpus, CaText, includes (1) data from datasets already available in Catalan and (2) data from three new crawlers we recently ran. ## Preprocessing ## Pretraining ## Eval results ## Intended uses & limitations ## Limitations and bias --- ## Using BERTa ## Load the model ``` python from transformers import AutoTokenizer, AutoModelForMaskedLM tokenizer = AutoTokenizer.from_pretrained("bsc/roberta-base-ca-cased") model = AutoModelForMaskedLM.from_pretrained("bsc/roberta-base-ca-cased") ``` ## Fill Mask task Below, an example of how to use the masked language modeling task with a pipeline. ```python >>> from transformers import pipeline >>> unmasker = pipeline('fill-mask', model='bsc/roberta-base') >>> unmasker("Situada a la costa de la mar Mediterrània, s'assenta en una plana formada entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, " "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa, i pel nord-oest per la serralada de Collserola " "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela la línia de costa encaixant la ciutat en un perímetre molt definit.") [ { "sequence": " Situada a la costa de la mar Mediterrània, Barcelona s'assenta en una plana formada entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa, i pel nord-oest per la serralada de Collserola " "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela la línia de costa encaixant la ciutat en un perímetre molt definit.", "score": 0.4177263379096985, "token": 734, "token_str": " Barcelona" }, { "sequence": " Situada a la costa de la mar Mediterrània, Barcelona s'assenta en una plana formada entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa, i pel nord-oest per la serralada de Collserola " "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela la línia de costa encaixant la ciutat en un perímetre molt definit.", "score": 0.10696165263652802, "token": 3849, "token_str": " Badalona" }, { "sequence": " Situada a la costa de la mar Mediterrània, Barcelona s'assenta en una plana formada entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa, i pel nord-oest per la serralada de Collserola " "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela la línia de costa encaixant la ciutat en un perímetre molt definit.", "score": 0.08135009557008743, "token": 19349, "token_str": " Collserola" }, { "sequence": " Situada a la costa de la mar Mediterrània, Barcelona s'assenta en una plana formada entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa, i pel nord-oest per la serralada de Collserola " "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela la línia de costa encaixant la ciutat en un perímetre molt definit.", "score": 0.07330769300460815, "token": 4974, "token_str": " Terrassa" }, { "sequence": " Situada a la costa de la mar Mediterrània, Barcelona s'assenta en una plana formada entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa, i pel nord-oest per la serralada de Collserola " "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela la línia de costa encaixant la ciutat en un perímetre molt definit.", "score": 0.03317456692457199, "token": 14333, "token_str": " Gavà" } ] ``` ### BibTeX entry and citation info ```bibtex @inproceedings{..., year={2020} } ```