Update README.md
Browse files
README.md
CHANGED
@@ -25,7 +25,7 @@ Modelo feito con OpenNMT para o par español-galego utilizando unha arquitectura
|
|
25 |
```bash
|
26 |
onmt_translate -src input_text -model NOS-MT-es-gl.pt --output ./output_file.txt --replace_unk --phrase_table phrase_table-es-gl.txt -gpu 0
|
27 |
```
|
28 |
-
+ O resultado da tradución estará no PATH indicado no flag
|
29 |
|
30 |
**Adestramento**
|
31 |
|
@@ -33,11 +33,11 @@ No adestramento, utilizamos corpora auténticos e sintéticos do [ProxectoNós](
|
|
33 |
|
34 |
**Procedemento de adestramento**
|
35 |
|
36 |
-
+ Tokenización dos datasets feita co tokenizador de linguakit
|
37 |
|
38 |
-
+ O vocabulario para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
|
39 |
|
40 |
-
+ Utilizando o .yaml deste repositorio pode replicar o proceso de adestramento do seguinte xeito:
|
41 |
|
42 |
```bash
|
43 |
onmt_build_vocab -config bpe-es-gl_emb.yaml -n_sample 100000
|
|
|
25 |
```bash
|
26 |
onmt_translate -src input_text -model NOS-MT-es-gl.pt --output ./output_file.txt --replace_unk --phrase_table phrase_table-es-gl.txt -gpu 0
|
27 |
```
|
28 |
+
+ O resultado da tradución estará no PATH indicado no flag --output.
|
29 |
|
30 |
**Adestramento**
|
31 |
|
|
|
33 |
|
34 |
**Procedemento de adestramento**
|
35 |
|
36 |
+
+ Tokenización dos datasets feita co tokenizador (tokenizer.pl) de [linguakit](https://github.com/citiususc/Linguakit) que foi modificado para evitar o salto de liña por token do ficheiro orixinal.
|
37 |
|
38 |
+
+ O vocabulario BPE para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
|
39 |
|
40 |
+
+ Utilizando o .yaml deste repositorio pode replicar o proceso de adestramento. É preciso modificar os paths do ficheiro .yaml para a Open NMT saber onde ir buscar os textos. Após facer isto, pode do seguinte xeito comezar o proceso:
|
41 |
|
42 |
```bash
|
43 |
onmt_build_vocab -config bpe-es-gl_emb.yaml -n_sample 100000
|