DeepMount00
commited on
End of training
Browse files- README.md +43 -106
- config.json +22 -2
- pytorch_model.bin +3 -0
- tokenizer_config.json +0 -42
- training_args.bin +3 -0
README.md
CHANGED
@@ -1,115 +1,52 @@
|
|
1 |
---
|
|
|
2 |
base_model: dbmdz/bert-base-italian-xxl-cased
|
3 |
tags:
|
4 |
-
-
|
5 |
-
- finance
|
6 |
-
- privacy
|
7 |
model-index:
|
8 |
-
- name:
|
9 |
results: []
|
10 |
-
widget:
|
11 |
-
- text: >-
|
12 |
-
La signora Bianca Rossi, nata il 10 aprile 1975 a Milano, con codice fiscale
|
13 |
-
RSSBNC75D50F205Z e residente in Via Roma 123, 20121 Milano, ha effettuato un
|
14 |
-
bonifico dal suo conto bancario IT60 X054 2811 1010 0000 0123 456 presso la
|
15 |
-
Banca Popolare di Milano (BIC: BPMIITMMXXX), trasferendo un importo di
|
16 |
-
€1.000,00. La transazione è stata eseguita il 22 gennaio 2024 alle ore
|
17 |
-
10:30. Per confermare la transazione, ha utilizzato un dispositivo Apple
|
18 |
-
iPhone con indirizzo IP 192.168.1.2 e l'indirizzo email
|
19 |
-
bianca.rossi@email.com, accedendo tramite il browser Safari (User Agent:
|
20 |
-
Mozilla/5.0 (iPhone; CPU iPhone OS 14_2 like Mac OS X) AppleWebKit/605.1.15
|
21 |
-
(KHTML, like Gecko) Version/14.0.1 Mobile/15E148 Safari/604.1).
|
22 |
-
- text: >-
|
23 |
-
Mario Rossi, nato il 15 marzo 1975, residente in Via delle Rose 123, 50122
|
24 |
-
Firenze, ha inviato un'email a info@example.com per richiedere informazioni
|
25 |
-
sulla legge N. 123/2021, indicando il suo numero di telefono +39 0551234567
|
26 |
-
e il codice fiscale RSSMRA75C15D612K.
|
27 |
-
- text: >-
|
28 |
-
La ditta Giardini Belli S.p.A., con partita IVA 01234567890, ha emesso una
|
29 |
-
fattura di 500 euro per la consulenza giuridica fornita dall'avvocato Giulia
|
30 |
-
Bianchi, il cui studio si trova in Piazza del Duomo, Milano, dal giorno
|
31 |
-
01/04/2024.
|
32 |
-
- text: >-
|
33 |
-
Il cliente ha effettuato un pagamento di 1500€ tramite bonifico bancario
|
34 |
-
(IBAN: IT60X0542811101000000123456) dalla banca Banca di Roma, per
|
35 |
-
l'acquisto di un veicolo con targa AB123CD, registrando la transazione alle
|
36 |
-
14:00 del 10/01/2024, come evidenziato nel suo estratto conto numero 7890.
|
37 |
-
language:
|
38 |
-
- it
|
39 |
-
license: apache-2.0
|
40 |
---
|
41 |
|
|
|
|
|
|
|
42 |
# Italian_NER_XXL
|
43 |
|
44 |
-
|
45 |
-
|
46 |
-
|
47 |
-
|
48 |
-
|
49 |
-
|
50 |
-
##
|
51 |
-
|
52 |
-
|
53 |
-
|
54 |
-
|
55 |
-
|
56 |
-
|
57 |
-
|
58 |
-
|
59 |
-
|
60 |
-
|
61 |
-
|
62 |
-
|
63 |
-
-
|
64 |
-
-
|
65 |
-
-
|
66 |
-
-
|
67 |
-
-
|
68 |
-
-
|
69 |
-
-
|
70 |
-
|
71 |
-
|
72 |
-
|
73 |
-
|
74 |
-
|
75 |
-
|
76 |
-
|
77 |
-
-
|
78 |
-
-
|
79 |
-
-
|
80 |
-
-
|
81 |
-
- **NUMERO_TELEFONO**: Numero telefonico.
|
82 |
-
- **FOGLIO**: Riferito a un foglio di documentazione.
|
83 |
-
- **PARTICELLA**: Riferito a una particella catastale.
|
84 |
-
- **CARTELLA_CLINICA**: Documentazione medica di un paziente.
|
85 |
-
- **MALATTIA**: Identifica una malattia o condizione medica.
|
86 |
-
- **MEDICINA**: Riferito a un farmaco o trattamento medico.
|
87 |
-
- **CODICE_FISCALE**: Codice fiscale personale o aziendale.
|
88 |
-
- **NUMERO_DOCUMENTO**: Numero di un documento ufficiale.
|
89 |
-
- **STORIA_CLINICA**: Registro delle condizioni mediche di un paziente.
|
90 |
-
- **AVV_NOTAIO**: Identifica un avvocato o notaio.
|
91 |
-
- **P_IVA**: Partita IVA di un'azienda o professionista.
|
92 |
-
- **LEGGE**: Riferito a una legge specifica.
|
93 |
-
- **TASSO_MUTUO**: Tasso di interesse di un mutuo.
|
94 |
-
- **N_SENTENZA**: Numero di una sentenza legale.
|
95 |
-
- **MAPPALE**: Riferito a un mappale catastale.
|
96 |
-
- **SUBALTERNO**: Riferito a un subalterno catastale.
|
97 |
-
- **REGIME_PATRIMONIALE**: Stato patrimoniale in ambito legale.
|
98 |
-
- **STATO_CIVILE**: Stato civile di una persona.
|
99 |
-
- **BANCA**: Identifica una banca o istituto di credito.
|
100 |
-
- **BRAND**: Marchio o brand commerciale.
|
101 |
-
- **NUM_ASSEGNO_BANCARIO**: Numero di un assegno bancario.
|
102 |
-
- **IMEI**: Numero di identificazione internazionale di un dispositivo mobile.
|
103 |
-
- **N_LICENZA**: Numero di una licenza specifica.
|
104 |
-
- **IPV6_1**: Indirizzo IP versione 6.
|
105 |
-
- **MAC**: Indirizzo MAC di un dispositivo di rete.
|
106 |
-
- **USER_AGENT**: Identifica il software usato per accedere a una rete.
|
107 |
-
- **TRIBUNALE**: Identifica un tribunale specifico.
|
108 |
-
- **STRENGTH**: Riferito alla forza o intensità di del medicinale.
|
109 |
-
- **FREQUENZA**: Riferito alla frequenza di un trattamento medico.
|
110 |
-
- **DURATION**: Durata di un evento o trattamento.
|
111 |
-
- **DOSAGGIO**: Quantità di un medicinale da assumere.
|
112 |
-
- **FORM**: Forma del medicinale, ad esempio compresse.
|
113 |
-
|
114 |
-
## Conclusion
|
115 |
-
The primary goal of this model is to provide effective and accurate identification of a wide range of entities, surpassing the limits of traditional models. Being the only model in Italy to recognize so many entities, we are confident that it will be an invaluable tool for numerous application areas. Constant evolution and improvement of the model is our top priority to ensure always top-notch performance.
|
|
|
1 |
---
|
2 |
+
license: mit
|
3 |
base_model: dbmdz/bert-base-italian-xxl-cased
|
4 |
tags:
|
5 |
+
- generated_from_trainer
|
|
|
|
|
6 |
model-index:
|
7 |
+
- name: Italian_NER_XXL
|
8 |
results: []
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
---
|
10 |
|
11 |
+
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
|
12 |
+
should probably proofread and complete it, then remove this comment. -->
|
13 |
+
|
14 |
# Italian_NER_XXL
|
15 |
|
16 |
+
This model is a fine-tuned version of [dbmdz/bert-base-italian-xxl-cased](https://huggingface.co/dbmdz/bert-base-italian-xxl-cased) on the None dataset.
|
17 |
+
|
18 |
+
## Model description
|
19 |
+
|
20 |
+
More information needed
|
21 |
+
|
22 |
+
## Intended uses & limitations
|
23 |
+
|
24 |
+
More information needed
|
25 |
+
|
26 |
+
## Training and evaluation data
|
27 |
+
|
28 |
+
More information needed
|
29 |
+
|
30 |
+
## Training procedure
|
31 |
+
|
32 |
+
### Training hyperparameters
|
33 |
+
|
34 |
+
The following hyperparameters were used during training:
|
35 |
+
- learning_rate: 2e-05
|
36 |
+
- train_batch_size: 8
|
37 |
+
- eval_batch_size: 8
|
38 |
+
- seed: 42
|
39 |
+
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
|
40 |
+
- lr_scheduler_type: linear
|
41 |
+
- num_epochs: 9
|
42 |
+
|
43 |
+
### Training results
|
44 |
+
|
45 |
+
|
46 |
+
|
47 |
+
### Framework versions
|
48 |
+
|
49 |
+
- Transformers 4.33.0
|
50 |
+
- Pytorch 2.0.1+cu118
|
51 |
+
- Datasets 2.14.4
|
52 |
+
- Tokenizers 0.13.3
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
config.json
CHANGED
@@ -115,7 +115,17 @@
|
|
115 |
"103": "B-USER_AGENT",
|
116 |
"104": "I-USER_AGENT",
|
117 |
"105": "B-TRIBUNALE",
|
118 |
-
"106": "I-TRIBUNALE"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
119 |
},
|
120 |
"initializer_range": 0.02,
|
121 |
"intermediate_size": 3072,
|
@@ -132,9 +142,13 @@
|
|
132 |
"B-DATA": 47,
|
133 |
"B-DATA_MORTE": 41,
|
134 |
"B-DATA_NASCITA": 39,
|
|
|
|
|
135 |
"B-EMAIL": 31,
|
136 |
"B-ETA": 45,
|
137 |
"B-FOGLIO": 55,
|
|
|
|
|
138 |
"B-IBAN": 11,
|
139 |
"B-IMEI": 95,
|
140 |
"B-IMPORTO": 29,
|
@@ -166,6 +180,7 @@
|
|
166 |
"B-STATO": 13,
|
167 |
"B-STATO_CIVILE": 87,
|
168 |
"B-STORIA_CLINICA": 69,
|
|
|
169 |
"B-SUBALTERNO": 83,
|
170 |
"B-TARGA_VEICOLO": 37,
|
171 |
"B-TASSO_MUTUO": 77,
|
@@ -185,9 +200,13 @@
|
|
185 |
"I-DATA": 48,
|
186 |
"I-DATA_MORTE": 42,
|
187 |
"I-DATA_NASCITA": 40,
|
|
|
|
|
188 |
"I-EMAIL": 32,
|
189 |
"I-ETA": 46,
|
190 |
"I-FOGLIO": 56,
|
|
|
|
|
191 |
"I-IBAN": 12,
|
192 |
"I-IMEI": 96,
|
193 |
"I-IMPORTO": 30,
|
@@ -219,6 +238,7 @@
|
|
219 |
"I-STATO": 14,
|
220 |
"I-STATO_CIVILE": 88,
|
221 |
"I-STORIA_CLINICA": 70,
|
|
|
222 |
"I-SUBALTERNO": 84,
|
223 |
"I-TARGA_VEICOLO": 38,
|
224 |
"I-TASSO_MUTUO": 78,
|
@@ -236,7 +256,7 @@
|
|
236 |
"pad_token_id": 0,
|
237 |
"position_embedding_type": "absolute",
|
238 |
"torch_dtype": "float32",
|
239 |
-
"transformers_version": "4.
|
240 |
"type_vocab_size": 2,
|
241 |
"use_cache": true,
|
242 |
"vocab_size": 32102
|
|
|
115 |
"103": "B-USER_AGENT",
|
116 |
"104": "I-USER_AGENT",
|
117 |
"105": "B-TRIBUNALE",
|
118 |
+
"106": "I-TRIBUNALE",
|
119 |
+
"107": "B-STRENGTH",
|
120 |
+
"108": "I-STRENGTH",
|
121 |
+
"109": "B-FREQUENZA",
|
122 |
+
"110": "I-FREQUENZA",
|
123 |
+
"111": "B-DURATION",
|
124 |
+
"112": "I-DURATION",
|
125 |
+
"113": "B-DOSAGGIO",
|
126 |
+
"114": "I-DOSAGGIO",
|
127 |
+
"115": "B-FORM",
|
128 |
+
"116": "I-FORM"
|
129 |
},
|
130 |
"initializer_range": 0.02,
|
131 |
"intermediate_size": 3072,
|
|
|
142 |
"B-DATA": 47,
|
143 |
"B-DATA_MORTE": 41,
|
144 |
"B-DATA_NASCITA": 39,
|
145 |
+
"B-DOSAGGIO": 113,
|
146 |
+
"B-DURATION": 111,
|
147 |
"B-EMAIL": 31,
|
148 |
"B-ETA": 45,
|
149 |
"B-FOGLIO": 55,
|
150 |
+
"B-FORM": 115,
|
151 |
+
"B-FREQUENZA": 109,
|
152 |
"B-IBAN": 11,
|
153 |
"B-IMEI": 95,
|
154 |
"B-IMPORTO": 29,
|
|
|
180 |
"B-STATO": 13,
|
181 |
"B-STATO_CIVILE": 87,
|
182 |
"B-STORIA_CLINICA": 69,
|
183 |
+
"B-STRENGTH": 107,
|
184 |
"B-SUBALTERNO": 83,
|
185 |
"B-TARGA_VEICOLO": 37,
|
186 |
"B-TASSO_MUTUO": 77,
|
|
|
200 |
"I-DATA": 48,
|
201 |
"I-DATA_MORTE": 42,
|
202 |
"I-DATA_NASCITA": 40,
|
203 |
+
"I-DOSAGGIO": 114,
|
204 |
+
"I-DURATION": 112,
|
205 |
"I-EMAIL": 32,
|
206 |
"I-ETA": 46,
|
207 |
"I-FOGLIO": 56,
|
208 |
+
"I-FORM": 116,
|
209 |
+
"I-FREQUENZA": 110,
|
210 |
"I-IBAN": 12,
|
211 |
"I-IMEI": 96,
|
212 |
"I-IMPORTO": 30,
|
|
|
238 |
"I-STATO": 14,
|
239 |
"I-STATO_CIVILE": 88,
|
240 |
"I-STORIA_CLINICA": 70,
|
241 |
+
"I-STRENGTH": 108,
|
242 |
"I-SUBALTERNO": 84,
|
243 |
"I-TARGA_VEICOLO": 38,
|
244 |
"I-TASSO_MUTUO": 78,
|
|
|
256 |
"pad_token_id": 0,
|
257 |
"position_embedding_type": "absolute",
|
258 |
"torch_dtype": "float32",
|
259 |
+
"transformers_version": "4.33.0",
|
260 |
"type_vocab_size": 2,
|
261 |
"use_cache": true,
|
262 |
"vocab_size": 32102
|
pytorch_model.bin
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:3a8d3ac41d027ea60ac5ba422304ff3c91a110a76550999a4f28ff66a93da4eb
|
3 |
+
size 440847977
|
tokenizer_config.json
CHANGED
@@ -1,46 +1,4 @@
|
|
1 |
{
|
2 |
-
"added_tokens_decoder": {
|
3 |
-
"0": {
|
4 |
-
"content": "[PAD]",
|
5 |
-
"lstrip": false,
|
6 |
-
"normalized": false,
|
7 |
-
"rstrip": false,
|
8 |
-
"single_word": false,
|
9 |
-
"special": true
|
10 |
-
},
|
11 |
-
"101": {
|
12 |
-
"content": "[UNK]",
|
13 |
-
"lstrip": false,
|
14 |
-
"normalized": false,
|
15 |
-
"rstrip": false,
|
16 |
-
"single_word": false,
|
17 |
-
"special": true
|
18 |
-
},
|
19 |
-
"102": {
|
20 |
-
"content": "[CLS]",
|
21 |
-
"lstrip": false,
|
22 |
-
"normalized": false,
|
23 |
-
"rstrip": false,
|
24 |
-
"single_word": false,
|
25 |
-
"special": true
|
26 |
-
},
|
27 |
-
"103": {
|
28 |
-
"content": "[SEP]",
|
29 |
-
"lstrip": false,
|
30 |
-
"normalized": false,
|
31 |
-
"rstrip": false,
|
32 |
-
"single_word": false,
|
33 |
-
"special": true
|
34 |
-
},
|
35 |
-
"104": {
|
36 |
-
"content": "[MASK]",
|
37 |
-
"lstrip": false,
|
38 |
-
"normalized": false,
|
39 |
-
"rstrip": false,
|
40 |
-
"single_word": false,
|
41 |
-
"special": true
|
42 |
-
}
|
43 |
-
},
|
44 |
"clean_up_tokenization_spaces": true,
|
45 |
"cls_token": "[CLS]",
|
46 |
"do_basic_tokenize": true,
|
|
|
1 |
{
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
"clean_up_tokenization_spaces": true,
|
3 |
"cls_token": "[CLS]",
|
4 |
"do_basic_tokenize": true,
|
training_args.bin
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:0c99cea83d2bf7e01b834e86302161c20533b1bfebacd0f1a54d7edc97c4427b
|
3 |
+
size 4091
|