imdbo commited on
Commit
e91e5de
1 Parent(s): 8583892

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -3
README.md CHANGED
@@ -36,11 +36,11 @@ No adestramento, utilizamos corpora auténticos e sintéticos do [ProxectoNós](
36
 
37
  **Procedemento de adestramento / Training process**
38
 
39
- + Tokenización dos datasets feita co tokenizador de LinguaKit https://github.com/citiususc/Linguakit
40
 
41
- + O vocabulario para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
42
 
43
- + Usando o .yaml neste repositorio pode replicar o proceso de adestramento do seguinte xeito
44
 
45
  ```bash
46
  onmt_build_vocab -config bpe-en-gl_emb.yaml -n_sample 100000
 
36
 
37
  **Procedemento de adestramento / Training process**
38
 
39
+ + Tokenización dos datasets feita co tokenizador (tokenizer.pl) de [linguakit](https://github.com/citiususc/Linguakit) que foi modificado para evitar o salto de liña por token do ficheiro orixinal.
40
 
41
+ + O vocabulario BPE para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
42
 
43
+ + Utilizando o .yaml deste repositorio pode replicar o proceso de adestramento. É preciso modificar os paths do ficheiro .yaml para a Open NMT saber onde ir buscar os textos. Após facer isto, pode do seguinte xeito comezar o proceso:
44
 
45
  ```bash
46
  onmt_build_vocab -config bpe-en-gl_emb.yaml -n_sample 100000