Refactor labels and update model configuration

Browse files

Files changed (9) hide show

labels.json +1 -1
model/config.json +65 -0
model/model.safetensors +3 -0
model/special_tokens_map.json +7 -0
model/tokenizer.json +0 -0
model/tokenizer_config.json +58 -0
model/training_args.bin +3 -0
model/vocab.txt +0 -0
train.py +17 -19

labels.json CHANGED Viewed

@@ -1 +1 @@

- {"1": "~~B-\~~u00dclke", "2": "~~I-\u00dclke~~", "3": "~~B-\u0130l", "4": "I-\u0130l", "5": "B-\u0130l~~\~~u00e7e", "6": "I-\~~u0130l\u00e7e", "7": "B-Mahalle", "8": "~~I-Mahalle", "9": "B-~~Cadde", "10": "~~I-Cadde", "11": "B-~~Sokak", "12": "~~I-Sokak", "13": "B-~~Bina Ad\u0131", "14": "I-Bina ~~Ad\u0131", "15": "B-Bina~~ Numaras\u0131", "16": "~~I-Bina Numaras\u0131", "17": "B-~~Yer Ad\u0131", "18": "~~I-Yer Ad\u0131", "19": "B-~~Site", "20": "~~I-Site", "21": "B-~~Adres Detay", "22": "~~I-Adres Detay", "23": "B-~~Blok No", "24": "~~I-Blok No", "25": "B-~~Bulvar", "26": "~~I-Bulvar", "27": "B-~~Daire No", "28": "~~I-Daire No", "29": "B-~~Posta Kodu", "30": "~~I-Posta Kodu", "31": "B-~~Kat", "32": "~~I-Kat~~", "0": "O"}


1	+ {"1": "\u00dclke", "2": "\u0130l", "3": "\u0130l\u00e7e", "4": "Mahalle", "5": "Cadde", "6": "Sokak", "7": "Bina Ad\u0131", "8": "Bina Numaras\u0131", "9": "Yer Ad\u0131", "10": "Site", "11": "Adres Detay", "12": "Blok No", "13": "Bulvar", "14": "Daire No", "15": "Posta Kodu", "16": "Kat", "0": "[PAD]", "17": "[UNK]"}

model/config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "_name_or_path": "dbmdz/bert-base-turkish-cased",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "[PAD]",
+    "1": "\u00dclke",
+    "2": "\u0130l",
+    "3": "\u0130l\u00e7e",
+    "4": "Mahalle",
+    "5": "Cadde",
+    "6": "Sokak",
+    "7": "Bina Ad\u0131",
+    "8": "Bina Numaras\u0131",
+    "9": "Yer Ad\u0131",
+    "10": "Site",
+    "11": "Adres Detay",
+    "12": "Blok No",
+    "13": "Bulvar",
+    "14": "Daire No",
+    "15": "Posta Kodu",
+    "16": "Kat",
+    "17": "[UNK]"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Adres Detay": 11,
+    "Bina Ad\u0131": 7,
+    "Bina Numaras\u0131": 8,
+    "Blok No": 12,
+    "Bulvar": 13,
+    "Cadde": 5,
+    "Daire No": 14,
+    "Kat": 16,
+    "Mahalle": 4,
+    "Posta Kodu": 15,
+    "Site": 10,
+    "Sokak": 6,
+    "Yer Ad\u0131": 9,
+    "[PAD]": 0,
+    "[UNK]": 17,
+    "\u00dclke": 1,
+    "\u0130l": 2,
+    "\u0130l\u00e7e": 3
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 32000
+}

model/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f61796d22b89ac6c4b5bf7cd5932198148f721b23b684a10950709b692328c6
+size 440185728

model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

model/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

model/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "max_len": 512,
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

model/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:300abae98dafa01f4daa08ba322e5f0ec434e9a6823866fb12dde9fb1397ba62
+size 4664

model/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

train.py CHANGED Viewed

@@ -63,16 +63,20 @@ def load_data():
     return labels, [orjson.loads(line) for line in data.split("\n") if line]
 labels, data = load_data()
-label_to_id = {}
-for i, label in enumerate(labels):
-    label_to_id["B-" + label["text"]] = i * 2 + 1
-    label_to_id["I-" + label["text"]] = i * 2 + 2
-label_to_id["O"] = 0
 id_to_label = {v: k for k, v in label_to_id.items()}
 tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-cased")
 model = AutoModelForTokenClassification.from_pretrained("dbmdz/bert-base-turkish-cased", num_labels=len(label_to_id)).to(device)
 from datasets import DatasetDict, Dataset
@@ -93,20 +97,18 @@ def preprocess_data(item, tokenizer, label_to_id):
     attention_mask = inputs["attention_mask"]
     offset_mapping = inputs["offset_mapping"]
-    labels = ["O"] * 128
-    last_label = "O"
     for token_idx, [off_start, off_end] in enumerate(offset_mapping[0]):
         if off_start == off_end:
             continue
         for start, end, label in item['label']:
             if start <= off_start and off_end <= end:
-                if last_label == label:
-                    labels[token_idx] = "I-" + label
-                else:
-                    labels[token_idx] = "B-" + label
-                last_label = label
                 break
     # Convert labels to ids
     labels = [label_to_id[label] for label in labels]
@@ -130,7 +132,6 @@ class AddressDataset(Dataset):
         return {key: torch.tensor(val) for key, val in item.items()}
 dataset = Dataset.from_generator(
     lambda: (preprocess_data(item, tokenizer, label_to_id) for item in data),
 )
@@ -165,8 +166,8 @@ def compute_metrics(pred, id_to_label):
     labels = [[id_to_label[label_id] for label_id in label_ids] for label_ids in labels]
     preds = [[id_to_label[pred] for pred in preds] for preds in preds]
-    labels = [label for label in labels if label != "O"]
-    preds = [pred for pred in preds if pred != "O"]
     mlb = MultiLabelBinarizer()
     mlb.fit([id_to_label.values()])
@@ -193,7 +194,4 @@ trainer = Trainer(
 trainer.train()
 trainer.evaluate()
-with open("./labels.json", "w") as f:
-    json.dump(id_to_label, f)
 trainer.save_model("./model")

     return labels, [orjson.loads(line) for line in data.split("\n") if line]
 labels, data = load_data()
+# label_to_id = {}
+# for i, label in enumerate(labels):
+#     label_to_id["B-" + label["text"]] = i * 2 + 1
+#     label_to_id["I-" + label["text"]] = i * 2 + 2
+# label_to_id["O"] = 0
+label_to_id = {label["text"]: i + 1 for i, label in enumerate(labels)}
+label_to_id["[PAD]"] = 0
+label_to_id["[UNK]"] = len(label_to_id)
 id_to_label = {v: k for k, v in label_to_id.items()}
 tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-cased")
 model = AutoModelForTokenClassification.from_pretrained("dbmdz/bert-base-turkish-cased", num_labels=len(label_to_id)).to(device)
+model.config.id2label = id_to_label
+model.config.label2id = label_to_id
 from datasets import DatasetDict, Dataset
     attention_mask = inputs["attention_mask"]
     offset_mapping = inputs["offset_mapping"]
+    labels = ["[PAD]"] * 128
     for token_idx, [off_start, off_end] in enumerate(offset_mapping[0]):
         if off_start == off_end:
             continue
         for start, end, label in item['label']:
             if start <= off_start and off_end <= end:
+                labels[token_idx] = label
                 break
+        if labels[token_idx] == "[PAD]":
+            labels[token_idx] = "[UNK]"
     # Convert labels to ids
     labels = [label_to_id[label] for label in labels]
         return {key: torch.tensor(val) for key, val in item.items()}
 dataset = Dataset.from_generator(
     lambda: (preprocess_data(item, tokenizer, label_to_id) for item in data),
 )
     labels = [[id_to_label[label_id] for label_id in label_ids] for label_ids in labels]
     preds = [[id_to_label[pred] for pred in preds] for preds in preds]
+    labels = [set(label) for label in labels]
+    preds = [set(pred) for pred in preds]
     mlb = MultiLabelBinarizer()
     mlb.fit([id_to_label.values()])
 trainer.train()
 trainer.evaluate()
 trainer.save_model("./model")