HeyLucasLeao commited on
Commit
70cf665
1 Parent(s): fc08d59

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +61 -0
README.md ADDED
@@ -0,0 +1,61 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ## GPT-Neo Small Portuguese
2
+
3
+ ##### Model Description
4
+ This is a finetuned version from GPT-Neo 125M by EletheurAI to Portuguese language.
5
+
6
+ ##### Training data
7
+ It was training from 227.382 selected texts from a PTWiki Dump. You can found all the data from here: https://archive.org/details/ptwiki-dump-20210520
8
+
9
+ ##### Training Procedure
10
+ Every text was passed through a GPT2-Tokenizer with bos and eos tokens to separate it, with max sequence length that the GPT-Neo could support. It was finetuned using the default metrics of the Trainer Class, available on the Hugging Face library.
11
+
12
+ ##### Learning Rate: **2e-4**
13
+ ##### Epochs: **1**
14
+
15
+ ##### Goals
16
+ My true intention was totally educational, thus making available a Portuguese version of this model.
17
+
18
+ How to use
19
+ ``` python
20
+ from transformers import AutoTokenizer, AutoModelForCausalLM
21
+
22
+ tokenizer = AutoTokenizer.from_pretrained("HeyLucasLeao/gpt-neo-small-portuguese")
23
+
24
+ model = AutoModelForCausalLM.from_pretrained("HeyLucasLeao/gpt-neo-small-portuguese")
25
+
26
+ text = 'eu amo o brasil.'
27
+
28
+ generated = tokenizer(f'<|startoftext|> {text}',
29
+ return_tensors='pt').input_ids.cuda()
30
+
31
+ #Generating texts
32
+ sample_outputs = model.generate(generated,
33
+ # Use sampling instead of greedy decoding
34
+ do_sample=True,
35
+ # Keep only top 3 token with the highest probability
36
+ top_k=3,
37
+ # Maximum sequence length
38
+ max_length=200,
39
+ # Keep only the most probable tokens with cumulative probability of 95%
40
+ top_p=0.95,
41
+ # Changes randomness of generated sequences
42
+ temperature=1.9,
43
+ # Number of sequences to generate
44
+ num_return_sequences=3)
45
+
46
+ # Decoding and printing sequences
47
+ for i, sample_output in enumerate(sample_outputs):
48
+ print(">> Generated text {}\n\n{}".format(i+1, tokenizer.decode(sample_output.tolist())))
49
+
50
+ # >> Generated text
51
+ #Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
52
+ #>> Generated text 1
53
+
54
+ #<|startoftext|> eu amo o brasil. O termo foi usado por alguns autores como uma forma de designar a formação do poder político do Brasil. A partir da década de 1960, o termo passou a ser usado para designar a formação política do Brasil. A partir de meados da década de 1970 e até o inicio dos anos 2000, o termo foi aplicado à formação político-administrativo do país, sendo utilizado por alguns autores como uma expressão de "política de direita". História Antecedentes O termo "político-administrário" foi usado pela primeira vez em 1891 por um gru
55
+ #>> Generated text 2
56
+
57
+ #<|startoftext|> eu amo o brasil. É uma das muitas pessoas do mundo, ao contrário da maioria das pessoas, que são chamados de "pessoas do Brasil", que são chamados de "brincos do país" e que têm uma carreira de mais de um século. O termo "brincal de ouro" é usado em referências às pessoas que vivem no Brasil, e que são chamados "brincos do país", que são "cidade" e que vivem na cidade de Nova York e que vive em um país onde a maior parte das pessoas são chamados de "cidades". Hist
58
+ #>> Generated text 3
59
+
60
+ #<|startoftext|> eu amo o brasil. É uma expressão que se refere ao uso de um instrumento musical em particular para se referir à qualidade musical, o que é uma expressão da qualidade da qualidade musical de uma pessoa. A expressão "amor" (em inglês, amo), é a expressão que pode ser usada com o intuito empregado em qualquer situação em que a vontade de uma pessoa de se sentir amado ou amoroso é mais do que um desejo de uma vontade. Em geral, a expressão "amoro" (do inglês, amo) pode também se referir tanto a uma pessoa como um instrumento de cordas ou de uma
61
+ ```