imdbo commited on
Commit
64d072b
1 Parent(s): b00d2fd

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +12 -3
README.md CHANGED
@@ -24,15 +24,24 @@ Datos utilizados para o adestramento
24
 
25
  Auténticos e Sintéticos (Transliteração)[Colocar Paper]
26
 
 
27
  **Procedemento de adestramento**
28
 
29
- Tokenization feita co tokenizador de linguakit https://github.com/citiususc/Linguakit
 
 
 
 
30
 
31
- BPE Modelos proprios
 
 
 
32
 
33
  **Hiperparámetros**
34
 
35
- Colocar o yaml para cada um dos pares
 
36
 
37
  **Avaliación**
38
  A avalación dos modelos é feita cunha mistura de tests desenvolvidos internamente
 
24
 
25
  Auténticos e Sintéticos (Transliteração)[Colocar Paper]
26
 
27
+
28
  **Procedemento de adestramento**
29
 
30
+ + Tokenization dos datasets feita co tokenizador de linguakit https://github.com/citiususc/Linguakit
31
+
32
+ + O vocabulario para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da open NMT
33
+
34
+ + Usando o .yaml neste repositorio pode replicar o proceso de adestramento do seguinte xeito
35
 
36
+ ```bash
37
+ onmt_build_vocab -config bpe-es-gl_emb.yaml -n_sample 100000
38
+ onmt_train -config bpe-es-gl_emb.yaml
39
+ ```
40
 
41
  **Hiperparámetros**
42
 
43
+ Os parámetros usados para o desenvolvimento do modelo poden ser consultados directamente no mesmo ficheiro .yaml bpe-es-gl_emb.yaml
44
+
45
 
46
  **Avaliación**
47
  A avalación dos modelos é feita cunha mistura de tests desenvolvidos internamente