language: pt
license: mit
tags:
- question-answering
- bert
- bert-base
- pytorch
- tensorflow
datasets:
- brWaC
- squad
metrics:
- squad
widget:
- text: Quando começou a pandemia de Covid-19 no mundo?
context: >-
A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é
uma pandemia em curso de COVID-19, uma doença respiratória aguda causada
pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A
doença foi identificada pela primeira vez em Wuhan, na província de Hubei,
República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso
foi reportado em 31 de dezembro do mesmo ano.
- text: Onde foi descoberta a Covid-19?
context: >-
A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é
uma pandemia em curso de COVID-19, uma doença respiratória aguda causada
pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A
doença foi identificada pela primeira vez em Wuhan, na província de Hubei,
República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso
foi reportado em 31 de dezembro do mesmo ano.
Portuguese BERT base cased QA (Question Answering), finetuned on SQUAD v1.1
Introduction
The model was trained on the dataset SQUAD v1.1 in portuguese from the Deep Learning Brasil group on Google Colab.
The language model used is the BERTimbau Base (aka "bert-base-portuguese-cased") from Neuralmind.ai: BERTimbau Base is a pretrained BERT model for Brazilian Portuguese that achieves state-of-the-art performances on three downstream NLP tasks: Named Entity Recognition, Sentence Textual Similarity and Recognizing Textual Entailment. It is available in two sizes: Base and Large.
Informations on the method used
All the informations are in the blog post : NLP | Modelo de Question Answering em qualquer idioma baseado no BERT base (estudo de caso em português)
Limitations and bias
The training data used for this model come from Portuguese SQUAD. It could contain a lot of unfiltered content, which is far from neutral, and biases.
Author
Portuguese BERT base cased QA (Question Answering), finetuned on SQUAD v1.1 was trained and evaluated by Pierre GUILLOU thanks to the Open Source code, platforms and advices of many organizations (link to the list). In particular: Neuralmind.ai, Deep Learning Brasil group, Google Colab and AI Lab.
Citation
If you use our work, please cite:
@inproceedings{pierreguillou2021bertbasecasedsquadv11portuguese,
title={Portuguese BERT base cased QA (Question Answering), finetuned on SQUAD v1.1},
author={Pierre Guillou},
year={2021}
}