File size: 13,757 Bytes
83e5cbc be84f77 7415f13 cbca02f 5eff8ae 35fc73a f84444f 5014cd9 f84444f 41a4cce f84444f fdeaf8c 802b672 83e5cbc be84f77 afd12a6 be84f77 ddf65b7 58c7b0a afd12a6 be84f77 c94a43c 58c7b0a eadf0b2 4c18645 eadf0b2 137dc4b a4f316e 137dc4b e6b1657 137dc4b e6b1657 137dc4b e6b1657 137dc4b be84f77 93ab61b 8ad01c8 e188dbb 8ad01c8 e188dbb 93ab61b be84f77 7415f13 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 |
---
license: mit
tags:
- generated_from_trainer
model-index:
- name: results_v4c_medium_no_eval
results: []
datasets:
- squad
- squad_v1_pt
- wikipedia
language:
- pt
library_name: transformers
inference:
parameters:
do_sample: false
max_new_tokens: 120
widget:
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Onde foi descoberta a Covid-19?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Onde a COVID-19 foi identificada pela primeira vez?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando a COVID-19 foi identificada pela primeira vez?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando a doença foi reportada pela primeira vez?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>"
- text: "<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Em que ano a doença foi identificada pela primeira vez?<|assistant|>"
- text: "<|prompter|>Game of Thrones é uma série de TV produzida pelo canal de televisão a cabo HBO. É baseada na série de romances As Crônicas de Gelo e Fogo, escrita por George R.R. Martin, que é produtor, consultor criativo e roteirista da série de TV. David Benioff e D.B. Weiss criaram a série de TV e são produtores executivos, e escritores principais.A série consiste em oito temporadas totalmente transmitidas, compreendendo setenta e três episódios no total.A produção da série é baseada em Belfast, Irlanda do Norte, principalmente no Paint Hall Studios. É a maior e mais cara produção de televisão já montada na Irlanda do Norte. As filmagens da série também foram realizadas em Malta, Islândia, Croácia, Marrocos, Espanha e EUA. Quem foi o autor dos livros Game of Thrones?<|assistant|>"
- text: "<|prompter|>Game of Thrones é uma série de TV produzida pelo canal de televisão a cabo HBO. É baseada na série de romances As Crônicas de Gelo e Fogo, escrita por George R.R. Martin, que é produtor, consultor criativo e roteirista da série de TV. David Benioff e D.B. Weiss criaram a série de TV e são produtores executivos, e escritores principais.A série consiste em oito temporadas totalmente transmitidas, compreendendo setenta e três episódios no total.A produção da série é baseada em Belfast, Irlanda do Norte, principalmente no Paint Hall Studios. É a maior e mais cara produção de televisão já montada na Irlanda do Norte. As filmagens da série também foram realizadas em Malta, Islândia, Croácia, Marrocos, Espanha e EUA. Quem foi o escritor dos livros Game of Thrones?<|assistant|>"
- text: "<|prompter|>Game of Thrones é uma série de TV produzida pelo canal de televisão a cabo HBO. É baseada na série de romances As Crônicas de Gelo e Fogo, escrita por George R.R. Martin, que é produtor, consultor criativo e roteirista da série de TV. David Benioff e D.B. Weiss criaram a série de TV e são produtores executivos, e escritores principais.A série consiste em oito temporadas totalmente transmitidas, compreendendo setenta e três episódios no total.A produção da série é baseada em Belfast, Irlanda do Norte, principalmente no Paint Hall Studios. É a maior e mais cara produção de televisão já montada na Irlanda do Norte. As filmagens da série também foram realizadas em Malta, Islândia, Croácia, Marrocos, Espanha e EUA. Quem são os produtores executivos da série de TV Game of Thrones?<|assistant|>"
- text: "<|prompter|>Game of Thrones é uma série de TV produzida pelo canal de televisão a cabo HBO. É baseada na série de romances As Crônicas de Gelo e Fogo, escrita por George R.R. Martin, que é produtor, consultor criativo e roteirista da série de TV. David Benioff e D.B. Weiss criaram a série de TV e são produtores executivos, e escritores principais.A série consiste em oito temporadas totalmente transmitidas, compreendendo setenta e três episódios no total.A produção da série é baseada em Belfast, Irlanda do Norte, principalmente no Paint Hall Studios. É a maior e mais cara produção de televisão já montada na Irlanda do Norte. As filmagens da série também foram realizadas em Malta, Islândia, Croácia, Marrocos, Espanha e EUA. Onde foram realizadas as filmagens da série Game of Thrones?<|assistant|>"
- text: '<|prompter|>O sistema de bibliotecas da universidade é dividido entre a biblioteca principal e cada uma das faculdades e escolas. O edifício principal é a Biblioteca Theodore M. Hesburgh, de 14 andares, concluída em 1963, que é o terceiro edifício a abrigar a principal coleção de livros. A frente da biblioteca é decorada com o mural da Palavra da Vida, projetado pelo artista Millard Sheets. Este mural é conhecido popularmente como "Touchdown Jesus" devido à sua proximidade com o Estádio Notre Dame e os braços de Jesus aparecendo para sinalizar um touchdown. Quantos andares possui a Biblioteca Theodore M. Hesburgh?<|assistant|>'
- text: '<|prompter|>O sistema de bibliotecas da universidade é dividido entre a biblioteca principal e cada uma das faculdades e escolas. O edifício principal é a Biblioteca Theodore M. Hesburgh, de 14 andares, concluída em 1963, que é o terceiro edifício a abrigar a principal coleção de livros. A frente da biblioteca é decorada com o mural da Palavra da Vida, projetado pelo artista Millard Sheets. Este mural é conhecido popularmente como "Touchdown Jesus" devido à sua proximidade com o Estádio Notre Dame e os braços de Jesus aparecendo para sinalizar um touchdown. Em que ano a Biblioteca Theodore M. Hesburgh em Notre Dame terminou?<|assistant|>'
- text: '<|prompter|>Rick Grimes é o xerife de uma pequena cidade do estado da Georgia, quando certo dia, é baleado por criminosos durante uma perseguição e entra em coma. Semanas depois, ele acorda em um hospital abandonado e totalmente danificado. Ao sair do hospital, Rick se encontra em um mundo pós-apocalíptico dominado por mortos-vivos. Depois de conhecer Morgan Jones e seu filho, Duane, que lhe explica o novo mundo, Rick decide ir para Atlanta atrás de sua família, onde um possível centro de refugiados foi montado pela Guarda Nacional. Ao chegar em Atlanta, ele logo descobre que a cidade está vazia e foi dominada pelos mortos. Quem o xerife Rick Grimes conheceu?<|assistant|>'
- text: "O sistema de bibliotecas da universidade é dividido entre a biblioteca principal"
- text: "Game of Thrones é"
---
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
should probably proofread and complete it, then remove this comment. -->
# gpt2-medium-wikiwriter-squadv11-portuguese
This model is a fine-tuned version of [egonrp/gpt2-wikiwriter-medium-portuguese](https://huggingface.co/egonrp/gpt2-wikiwriter-medium-portuguese) on wiki_pt and squad_v1.1_pt datasets.
** It's a chatbot experiment. ;)
The model was trained in 12 hours on a NVIDIA RTX 3060 12GB.
### Usage:
```
$ python3
>>> from transformers import pipeline, set_seed
>>> set_seed(42)
>>> generator = pipeline('text-generation', model="egonrp/gpt2-medium-wikiwriter-squadv11-portuguese")
>>> result = generator('<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>', max_new_tokens=110, num_return_sequences=1, do_sample=False)
>>> print(result)
[{'generated_text': '<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>31 de dezembro do mesmo ano'}]
```
### Usage.2:
```
$ python3
>>> from transformers import GPT2LMHeadModel, GPT2Tokenizer, set_seed
>>> set_seed(42)
>>> model = GPT2LMHeadModel.from_pretrained("egonrp/gpt2-medium-wikiwriter-squadv11-portuguese")
>>> tokenizer = GPT2Tokenizer.from_pretrained("egonrp/gpt2-medium-wikiwriter-squadv11-portuguese")
>>> tokenizer.add_special_tokens({'pad_token': tokenizer.eos_token})
>>> model.config.pad_token_id = tokenizer.eos_token_id
>>> prompt_text = '<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>'
>>> encoded_prompt = tokenizer.encode(prompt_text, return_tensors="pt")
>>> output_sequences = model.generate(
input_ids=encoded_prompt,
do_sample=False,
num_return_sequences=1,
max_new_tokens=110,
eos_token_id=model.config.eos_token_id,
pad_token_id=model.config.eos_token_id
)
>>> decoded_text = tokenizer.decode(output_sequences[0], skip_special_tokens=True)
>>> print(decoded_text)
<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>31 de dezembro do mesmo ano
```
## Model description
More information needed
## Intended uses & limitations
More information needed
## Training and evaluation data
More information needed
## Training procedure
```
git clone -b v4.27-release https://github.com/huggingface/transformers.git
cd transformers/examples/pytorch/language-modeling/
pip install -r requirements.txt
pip install transformers==v4.27.3
python3 run_clm.py \
--model_name_or_path egonrp/gpt2-wikiwriter-medium-portuguese \
--train_file /home/egon/dev/gptsquad_data/converted_squad_merged_out_v4c.txt \
--do_train \
--num_train_epochs 3 \
--per_device_train_batch_size 1 \
--output_dir /home/egon/dev/gptsquad_model/results_v4c_medium_no_eval \
--fp16
```
### Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 5e-05
- train_batch_size: 1
- eval_batch_size: 8
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 3.0
- mixed_precision_training: Native AMP
### Training results
### Framework versions
- Transformers 4.26.1
- Pytorch 2.0.0+cu117
- Datasets 2.10.1
- Tokenizers 0.13.2 |