imdbo commited on
Commit
e8817e3
1 Parent(s): 79bd511

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +10 -3
README.md CHANGED
@@ -29,13 +29,20 @@ Auténticos e Sintéticos (Transliteração)[Colocar Paper]
29
 
30
  **Procedemento de adestramento**
31
 
32
- Tokenization feita co tokenizador de linguakit https://github.com/citiususc/Linguakit
33
 
34
- BPE
 
 
 
 
 
 
 
35
 
36
  **Hiperparámetros**
37
 
38
- Colocar o yaml para cada um dos pares
39
 
40
  **Avaliación**
41
  A avalación dos modelos é feita cunha mistura de tests desenvolvidos internamente
 
29
 
30
  **Procedemento de adestramento**
31
 
32
+ + Tokenization dos datasets feita co tokenizador de linguakit https://github.com/citiususc/Linguakit
33
 
34
+ + O vocabulario para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da open NMT
35
+
36
+ + Usando o .yaml neste repositorio pode replicar o proceso de adestramento do seguinte xeito
37
+
38
+ ```bash
39
+ onmt_build_vocab -config bpe-en-gl_emb.yaml -n_sample 100000
40
+ onmt_train -config bpe-en-gl_emb.yaml
41
+ ```
42
 
43
  **Hiperparámetros**
44
 
45
+ Os parámetros usados para o desenvolvimento do modelo poden ser consultados directamente no mesmo ficheiro .yaml bpe-en-gl_emb.yaml
46
 
47
  **Avaliación**
48
  A avalación dos modelos é feita cunha mistura de tests desenvolvidos internamente