GPalomeque
commited on
Commit
·
aaba24d
1
Parent(s):
004d7cd
Update app_details.py
Browse files- app_details.py +2 -1
app_details.py
CHANGED
@@ -113,6 +113,7 @@ Realizar la investigación de como compartir los datasets en HuggingFace represe
|
|
113 |
* Espacio de almacenamiento para almacenar los checkpoints que requerían 1.4 GB de almacenamiento por lo que no podíamos entrenar de forma continua.
|
114 |
* Los resultados de **F1** eran muy bajos.
|
115 |
* La cantidad de datos en el corpus era tan elevado y disparejo que el tiempo para entrenar una época era muy alto.
|
|
|
116 |
* Fue necesario dar un paso atrás y revisar el dataset para realizar un análisis exploratorio e idear estrategias para balancear la muestra por lo que se acoto a:
|
117 |
|
118 |
| name |train|validation|test|
|
@@ -123,7 +124,7 @@ Realizar la investigación de como compartir los datasets en HuggingFace represe
|
|
123 |
|---------|----:|---------:|---:|
|
124 |
|LEY|1084|329|0|
|
125 |
|TRAT_INTL|935|161|0|
|
126 |
-
|
127 |
- **jurisbert-class-tratados-internacionales-sistema-unviersal**
|
128 |
* Se entrenó con un conjunto de datos que consta de 3,799 textos con su etiquetado a diferentes 8 tipos de convenios.
|
129 |
* Los textos se transforman utilizando SimpleTransformers en el que se entrenó tres épocas con modelo base Roberta y modelo especifico Jurisbert el cual es un modelo de enmascaramiento con corpus jurídico en español.
|
|
|
113 |
* Espacio de almacenamiento para almacenar los checkpoints que requerían 1.4 GB de almacenamiento por lo que no podíamos entrenar de forma continua.
|
114 |
* Los resultados de **F1** eran muy bajos.
|
115 |
* La cantidad de datos en el corpus era tan elevado y disparejo que el tiempo para entrenar una época era muy alto.
|
116 |
+
* Realizar múltiples entrenamientos hasta identificar cual era el mejor para realizar cual sería utilizado como base para el entrenamiento siguiente.
|
117 |
* Fue necesario dar un paso atrás y revisar el dataset para realizar un análisis exploratorio e idear estrategias para balancear la muestra por lo que se acoto a:
|
118 |
|
119 |
| name |train|validation|test|
|
|
|
124 |
|---------|----:|---------:|---:|
|
125 |
|LEY|1084|329|0|
|
126 |
|TRAT_INTL|935|161|0|
|
127 |
+
|
128 |
- **jurisbert-class-tratados-internacionales-sistema-unviersal**
|
129 |
* Se entrenó con un conjunto de datos que consta de 3,799 textos con su etiquetado a diferentes 8 tipos de convenios.
|
130 |
* Los textos se transforman utilizando SimpleTransformers en el que se entrenó tres épocas con modelo base Roberta y modelo especifico Jurisbert el cual es un modelo de enmascaramiento con corpus jurídico en español.
|