imdbo commited on
Commit
8bc12a0
1 Parent(s): dc89eec

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -4
README.md CHANGED
@@ -25,7 +25,7 @@ Modelo feito con OpenNMT para o par español-galego utilizando unha arquitectura
25
  ```bash
26
  onmt_translate -src input_text -model NOS-MT-es-gl.pt --output ./output_file.txt --replace_unk --phrase_table phrase_table-es-gl.txt -gpu 0
27
  ```
28
- + O resultado da tradución estará no PATH indicado no flag -output.
29
 
30
  **Adestramento**
31
 
@@ -33,11 +33,11 @@ No adestramento, utilizamos corpora auténticos e sintéticos do [ProxectoNós](
33
 
34
  **Procedemento de adestramento**
35
 
36
- + Tokenización dos datasets feita co tokenizador de linguakit: https://github.com/citiususc/Linguakit
37
 
38
- + O vocabulario para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
39
 
40
- + Utilizando o .yaml deste repositorio pode replicar o proceso de adestramento do seguinte xeito:
41
 
42
  ```bash
43
  onmt_build_vocab -config bpe-es-gl_emb.yaml -n_sample 100000
 
25
  ```bash
26
  onmt_translate -src input_text -model NOS-MT-es-gl.pt --output ./output_file.txt --replace_unk --phrase_table phrase_table-es-gl.txt -gpu 0
27
  ```
28
+ + O resultado da tradución estará no PATH indicado no flag --output.
29
 
30
  **Adestramento**
31
 
 
33
 
34
  **Procedemento de adestramento**
35
 
36
+ + Tokenización dos datasets feita co tokenizador (tokenizer.pl) de [linguakit](https://github.com/citiususc/Linguakit) que foi modificado para evitar o salto de liña por token do ficheiro orixinal.
37
 
38
+ + O vocabulario BPE para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
39
 
40
+ + Utilizando o .yaml deste repositorio pode replicar o proceso de adestramento. É preciso modificar os paths do ficheiro .yaml para a Open NMT saber onde ir buscar os textos. Após facer isto, pode do seguinte xeito comezar o proceso:
41
 
42
  ```bash
43
  onmt_build_vocab -config bpe-es-gl_emb.yaml -n_sample 100000