ajustes
Browse files
README.md
CHANGED
@@ -10,9 +10,53 @@ model-index:
|
|
10 |
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
|
11 |
should probably proofread and complete it, then remove this comment. -->
|
12 |
|
13 |
-
#
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
14 |
|
15 |
-
This model is a fine-tuned version of [gpt2-medium](https://huggingface.co/gpt2-medium) on an unknown dataset.
|
16 |
|
17 |
## Model description
|
18 |
|
@@ -28,6 +72,21 @@ More information needed
|
|
28 |
|
29 |
## Training procedure
|
30 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
31 |
### Training hyperparameters
|
32 |
|
33 |
The following hyperparameters were used during training:
|
|
|
10 |
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
|
11 |
should probably proofread and complete it, then remove this comment. -->
|
12 |
|
13 |
+
# gpt2-medium-squadv11-portuguese
|
14 |
+
|
15 |
+
This model is a fine-tuned version of [gpt2-medium](https://huggingface.co/gpt2-medium) on squad_v1.1_pt dataset.
|
16 |
+
|
17 |
+
** It's a chatbot experiment. ;)
|
18 |
+
|
19 |
+
The model was trained in 12 hours on a NVIDIA RTX 3060 12GB using training argument "--fp16" because of the GPU memory limit.
|
20 |
+
|
21 |
+
|
22 |
+
### Usage:
|
23 |
+
```
|
24 |
+
$ python3
|
25 |
+
>>> from transformers import pipeline, set_seed
|
26 |
+
>>> set_seed(42)
|
27 |
+
>>> generator = pipeline('text-generation', model="egonrp/gpt2-medium-squadv11-portuguese")
|
28 |
+
>>> result = generator('<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>', max_new_tokens=110, num_return_sequences=1, do_sample=False)
|
29 |
+
>>> print(result)
|
30 |
+
[{'generated_text': '<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>31 de dezembro do mesmo ano'}]
|
31 |
+
```
|
32 |
+
|
33 |
+
|
34 |
+
|
35 |
+
### Usage.2:
|
36 |
+
```
|
37 |
+
$ python3
|
38 |
+
>>> from transformers import GPT2LMHeadModel, GPT2Tokenizer, set_seed
|
39 |
+
>>> set_seed(42)
|
40 |
+
>>> model = GPT2LMHeadModel.from_pretrained("egonrp/gpt2-medium-squadv11-portuguese")
|
41 |
+
>>> tokenizer = GPT2Tokenizer.from_pretrained("egonrp/gpt2-medium-squadv11-portuguese")
|
42 |
+
>>> tokenizer.add_special_tokens({'pad_token': tokenizer.eos_token})
|
43 |
+
>>> model.config.pad_token_id = tokenizer.eos_token_id
|
44 |
+
>>> prompt_text = '<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>'
|
45 |
+
>>> encoded_prompt = tokenizer.encode(prompt_text, return_tensors="pt")
|
46 |
+
>>> output_sequences = model.generate(
|
47 |
+
input_ids=encoded_prompt,
|
48 |
+
do_sample=False,
|
49 |
+
num_return_sequences=1,
|
50 |
+
max_new_tokens=110,
|
51 |
+
eos_token_id=model.config.eos_token_id,
|
52 |
+
pad_token_id=model.config.eos_token_id
|
53 |
+
)
|
54 |
+
>>> decoded_text = tokenizer.decode(output_sequences[0], skip_special_tokens=True)
|
55 |
+
>>> print(decoded_text)
|
56 |
+
<|prompter|>A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Quando foi reportado o primeiro caso de COVID-19?<|assistant|>31 de dezembro do mesmo ano
|
57 |
+
```
|
58 |
+
|
59 |
|
|
|
60 |
|
61 |
## Model description
|
62 |
|
|
|
72 |
|
73 |
## Training procedure
|
74 |
|
75 |
+
```
|
76 |
+
git clone -b v4.27-release https://github.com/huggingface/transformers.git
|
77 |
+
cd transformers/examples/pytorch/language-modeling/
|
78 |
+
pip install -r requirements.txt
|
79 |
+
pip install transformers==v4.27.3
|
80 |
+
python3 run_clm.py \
|
81 |
+
--model_name_or_path gpt2-medium \
|
82 |
+
--train_file /home/egon/dev/gptsquad_data/converted_squad_merged_out_v4c.txt \
|
83 |
+
--do_train \
|
84 |
+
--num_train_epochs 3 \
|
85 |
+
--per_device_train_batch_size 1 \
|
86 |
+
--output_dir /home/egon/dev/gptsquad_model/results_v4c_gpt_medium_original_no_eval \
|
87 |
+
--fp16
|
88 |
+
```
|
89 |
+
|
90 |
### Training hyperparameters
|
91 |
|
92 |
The following hyperparameters were used during training:
|