sandrarrey
commited on
Commit
•
8aba977
1
Parent(s):
bc146bd
Update README.md
Browse files
README.md
CHANGED
@@ -13,59 +13,54 @@ license: mit
|
|
13 |
|
14 |
**English text [here](https://huggingface.co/proxectonos/NOS-MT-OpenNMT-en-gl/blob/main/README_English.md)**
|
15 |
|
16 |
-
**Descrición do Modelo
|
17 |
|
18 |
-
Modelo feito con OpenNMT para o par inglés-galego utilizando unha arquitectura transformer.
|
19 |
|
20 |
-
**Como traducir
|
21 |
|
22 |
-
+ Abrir terminal bash
|
23 |
-
+ Instalar
|
24 |
-
+ Instalar
|
25 |
-
+ Traducir un input_text utilizando o modelo NOS-MT-en-gl co seguinte comando
|
26 |
|
27 |
```bash
|
28 |
onmt_translate -src input_text -model NOS-MT-en-gl -output ./output_file.txt -replace_unk -gpu 0
|
29 |
```
|
30 |
-
+ O resultado da tradución estará no PATH indicado no flag -output
|
31 |
|
32 |
-
**Adestramento
|
33 |
|
34 |
No adestramento, utilizamos corpora auténticos e sintéticos do [ProxectoNós](https://github.com/proxectonos/corpora). Os primeiros son corpora de traducións feitas directamente por tradutores humanos. Os segundos son corpora de traducións inglés-portugués, que convertemos en inglés-galego a través da tradución automática portugués-galego con Opentrad/Apertium e transliteración para palabras fóra de vocabulario.
|
35 |
-
|
36 |
-
In the training we have used authentic and synthetic corpora from [ProxectoNós](https://github.com/proxectonos/corpora). The former are corpora of translations directly produced by human translators. The latter are corpora of English-Portuguese translations, which we have converted into English-Galician by means of Portuguese-Galician translation with Opentrad/Apertium and transliteration for out-of-vocabulary words.
|
37 |
|
38 |
**Procedemento de adestramento / Training process**
|
39 |
|
40 |
-
+ Tokenization dos datasets feita co tokenizador de linguakit
|
41 |
|
42 |
-
+ O vocabulario para os modelos foi xerado a través do script
|
43 |
|
44 |
-
+ Usando o .yaml neste repositorio pode replicar o proceso de adestramento do seguinte xeito
|
45 |
|
46 |
```bash
|
47 |
onmt_build_vocab -config bpe-en-gl_emb.yaml -n_sample 100000
|
48 |
onmt_train -config bpe-en-gl_emb.yaml
|
49 |
```
|
50 |
|
51 |
-
**Hiperparámetros
|
52 |
|
53 |
Os parámetros usados para o desenvolvemento do modelo poden ser consultados directamente no mesmo ficheiro .yaml bpe-en-gl_emb.yaml
|
54 |
|
55 |
-
|
56 |
-
|
57 |
-
**Avaliación / Evaluation**
|
58 |
A avalación BLEU dos modelos é feita cunha mistura de tests desenvolvidos internamente (gold1, gold2, test-suite) con outros datasets disponíbeis en galego (Flores).
|
59 |
|
60 |
-
The BLEU evaluation of the models is made with a mixture of internally developed tests (gold1, gold2, test-suite) and other datasets available in Galician (Flores).
|
61 |
-
|
62 |
| GOLD 1 | GOLD 2 | FLORES | TEST-SUITE|
|
63 |
| ------------- |:-------------:| -------:|----------:|
|
64 |
| 36.8 | 47.1 | 32.3 | 42.7 |
|
65 |
|
66 |
|
67 |
|
68 |
-
**Licenzas do Modelo
|
69 |
|
70 |
MIT License
|
71 |
|
@@ -89,10 +84,9 @@ LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
|
|
89 |
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
|
90 |
SOFTWARE.
|
91 |
|
92 |
-
**Financiamento
|
93 |
|
94 |
Esta investigación foi financiada polo proxecto "Nós: o galego na sociedade e economía da intelixencia artificial", resultado dun acordo entre a Xunta de Galicia e a Universidade de Santiago de Compostela, o que resultou no subsidio ED431G2019/04 da Consellaría de Educación, Universidade e Formación Profesional da Galiza, e polo Fondo Europeo de Desenvolvemento Rexional (programa ERDF/FEDER), e Grupos de Referencia: ED431C 2020/21.
|
95 |
|
96 |
-
This research was funded by the project "Nós: Galician in the society and economy of artificial intelligence", agreement between Xunta de Galicia and University of Santiago de Compostela, and grant ED431G2019/04 by the Galician Ministry of Education, University and Professional Training, and the European Regional Development Fund (ERDF/FEDER program), and Groups of Reference: ED431C 2020/21.
|
97 |
|
98 |
**Citation Information**
|
|
|
13 |
|
14 |
**English text [here](https://huggingface.co/proxectonos/NOS-MT-OpenNMT-en-gl/blob/main/README_English.md)**
|
15 |
|
16 |
+
**Descrición do Modelo**
|
17 |
|
18 |
+
Modelo feito con OpenNMT para o par inglés-galego utilizando unha arquitectura transformer.
|
19 |
|
20 |
+
**Como traducir**
|
21 |
|
22 |
+
+ Abrir terminal bash
|
23 |
+
+ Instalar [Python 3.9](https://www.python.org/downloads/release/python-390/)
|
24 |
+
+ Instalar [Open NMT toolkit v.2.2](https://github.com/OpenNMT/OpenNMT-py)
|
25 |
+
+ Traducir un input_text utilizando o modelo NOS-MT-en-gl co seguinte comando:
|
26 |
|
27 |
```bash
|
28 |
onmt_translate -src input_text -model NOS-MT-en-gl -output ./output_file.txt -replace_unk -gpu 0
|
29 |
```
|
30 |
+
+ O resultado da tradución estará no PATH indicado no flag -output.
|
31 |
|
32 |
+
**Adestramento**
|
33 |
|
34 |
No adestramento, utilizamos corpora auténticos e sintéticos do [ProxectoNós](https://github.com/proxectonos/corpora). Os primeiros son corpora de traducións feitas directamente por tradutores humanos. Os segundos son corpora de traducións inglés-portugués, que convertemos en inglés-galego a través da tradución automática portugués-galego con Opentrad/Apertium e transliteración para palabras fóra de vocabulario.
|
35 |
+
|
|
|
36 |
|
37 |
**Procedemento de adestramento / Training process**
|
38 |
|
39 |
+
+ Tokenization dos datasets feita co tokenizador de linguakit https://github.com/citiususc/Linguakit
|
40 |
|
41 |
+
+ O vocabulario para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da open NMT
|
42 |
|
43 |
+
+ Usando o .yaml neste repositorio pode replicar o proceso de adestramento do seguinte xeito
|
44 |
|
45 |
```bash
|
46 |
onmt_build_vocab -config bpe-en-gl_emb.yaml -n_sample 100000
|
47 |
onmt_train -config bpe-en-gl_emb.yaml
|
48 |
```
|
49 |
|
50 |
+
**Hiperparámetros**
|
51 |
|
52 |
Os parámetros usados para o desenvolvemento do modelo poden ser consultados directamente no mesmo ficheiro .yaml bpe-en-gl_emb.yaml
|
53 |
|
54 |
+
**Avaliación**
|
|
|
|
|
55 |
A avalación BLEU dos modelos é feita cunha mistura de tests desenvolvidos internamente (gold1, gold2, test-suite) con outros datasets disponíbeis en galego (Flores).
|
56 |
|
|
|
|
|
57 |
| GOLD 1 | GOLD 2 | FLORES | TEST-SUITE|
|
58 |
| ------------- |:-------------:| -------:|----------:|
|
59 |
| 36.8 | 47.1 | 32.3 | 42.7 |
|
60 |
|
61 |
|
62 |
|
63 |
+
**Licenzas do Modelo**
|
64 |
|
65 |
MIT License
|
66 |
|
|
|
84 |
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
|
85 |
SOFTWARE.
|
86 |
|
87 |
+
**Financiamento**
|
88 |
|
89 |
Esta investigación foi financiada polo proxecto "Nós: o galego na sociedade e economía da intelixencia artificial", resultado dun acordo entre a Xunta de Galicia e a Universidade de Santiago de Compostela, o que resultou no subsidio ED431G2019/04 da Consellaría de Educación, Universidade e Formación Profesional da Galiza, e polo Fondo Europeo de Desenvolvemento Rexional (programa ERDF/FEDER), e Grupos de Referencia: ED431C 2020/21.
|
90 |
|
|
|
91 |
|
92 |
**Citation Information**
|