proxectonos
/

Nos_MT-OpenNMT-en-gl

Model card Files Files and versions Community

imdbo commited on Mar 13, 2023

Commit

e91e5de

•

1 Parent(s): 8583892

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -36,11 +36,11 @@ No adestramento, utilizamos corpora auténticos e sintéticos do [ProxectoNós](
 **Procedemento de adestramento / Training process**
-+ Tokenización dos datasets feita co tokenizador de LinguaKit https://github.com/citiususc/Linguakit
-+ O vocabulario para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
-+ Usando o .yaml neste repositorio pode replicar o proceso de adestramento do seguinte xeito
 ```bash
 onmt_build_vocab -config  bpe-en-gl_emb.yaml -n_sample 100000

 **Procedemento de adestramento / Training process**
++ Tokenización dos datasets feita co tokenizador (tokenizer.pl) de [linguakit](https://github.com/citiususc/Linguakit) que foi modificado para evitar o salto de liña por token do ficheiro orixinal.
++ O vocabulario BPE para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da OpenNMT
++ Utilizando o .yaml deste repositorio pode replicar o proceso de adestramento. É preciso modificar os paths do ficheiro .yaml para a Open NMT saber onde ir buscar os textos. Após facer isto, pode do seguinte xeito comezar o proceso:
 ```bash
 onmt_build_vocab -config  bpe-en-gl_emb.yaml -n_sample 100000