initial release

Browse files

Files changed (8) hide show

README.md +40 -0
config.json +625 -0
pytorch_model.bin +3 -0
sentencepiece.model +3 -0
special_tokens_map.json +15 -0
supar.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +22 -0

README.md ADDED Viewed

	@@ -0,0 +1,40 @@

+---
+language:
+- "ain"
+tags:
+- "ainu"
+- "token-classification"
+- "pos"
+- "dependency-parsing"
+license: "cc-by-sa-4.0"
+pipeline_tag: "token-classification"
+widget:
+- text: "itak=as awa pon rupne aynu ene itaki"
+- text: "イタカㇱ アワ ポン ルㇷ゚ネ アイヌ エネ イタキ"
+---
+# roberta-base-ainu-upos
+## Model Description
+This is a RoBERTa model pre-trained on Ainu texts (both カタカナ and romanized) for POS-tagging and dependency-parsing, derived from [roberta-base-ainu](https://huggingface.co/KoichiYasuoka/roberta-base-ainu). Every word is tagged by [UPOS](https://universaldependencies.org/u/pos/) (Universal Part-Of-Speech).
+## How to Use
+```py
+from transformers import AutoTokenizer,AutoModelForTokenClassification
+tokenizer=AutoTokenizer.from_pretrained("KoichiYasuoka/roberta-base-ainu-upos")
+model=AutoModelForTokenClassification.from_pretrained("KoichiYasuoka/roberta-base-ainu-upos")
+```
+or
+```py
+import esupar
+nlp=esupar.load("KoichiYasuoka/roberta-base-ainu-upos")
+```
+## See Also
+[esupar](https://github.com/KoichiYasuoka/esupar): Tokenizer POS-tagger and Dependency-parser with BERT/RoBERTa/DeBERTa models

config.json ADDED Viewed

	@@ -0,0 +1,625 @@

+{
+  "architectures": [
+    "RobertaForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "ADP",
+    "1": "ADV",
+    "2": "AUX",
+    "3": "AUX+NOUN",
+    "4": "B-ADP",
+    "5": "B-ADP+VERB+NOUN",
+    "6": "B-ADV",
+    "7": "B-AUX",
+    "8": "B-AUX+PART",
+    "9": "B-CCONJ",
+    "10": "B-DET",
+    "11": "B-DET+NOUN",
+    "12": "B-INFR.EV",
+    "13": "B-INTJ",
+    "14": "B-NOUN",
+    "15": "B-NOUN+ADP",
+    "16": "B-NOUN+ADP+NOUN",
+    "17": "B-NOUN+ADP+VERB",
+    "18": "B-NOUN+ADV",
+    "19": "B-NOUN+NOUN",
+    "20": "B-NOUN+VERB",
+    "21": "B-NUM",
+    "22": "B-NUM+NOUN",
+    "23": "B-PART",
+    "24": "B-PART+AUX",
+    "25": "B-PART+NOUN",
+    "26": "B-PART+VERB",
+    "27": "B-PRON",
+    "28": "B-PROPN",
+    "29": "B-PUNCT",
+    "30": "B-SCONJ",
+    "31": "B-SCONJ+ADV",
+    "32": "B-VERB",
+    "33": "B-VERB+NOUN",
+    "34": "B-VERB+PART",
+    "35": "B-VERB+SCONJ",
+    "36": "B-VERT",
+    "37": "B-X",
+    "38": "CCONJ",
+    "39": "DET",
+    "40": "DET+NOUN",
+    "41": "DET+SCONJ+VERB",
+    "42": "I-ADP",
+    "43": "I-ADP+VERB+NOUN",
+    "44": "I-ADV",
+    "45": "I-AUX",
+    "46": "I-AUX+PART",
+    "47": "I-CCONJ",
+    "48": "I-DET",
+    "49": "I-DET+NOUN",
+    "50": "I-INFR.EV",
+    "51": "I-INTJ",
+    "52": "I-NOUN",
+    "53": "I-NOUN+ADP",
+    "54": "I-NOUN+ADP+NOUN",
+    "55": "I-NOUN+ADP+VERB",
+    "56": "I-NOUN+ADV",
+    "57": "I-NOUN+NOUN",
+    "58": "I-NOUN+VERB",
+    "59": "I-NUM",
+    "60": "I-NUM+NOUN",
+    "61": "I-PART",
+    "62": "I-PART+AUX",
+    "63": "I-PART+NOUN",
+    "64": "I-PART+VERB",
+    "65": "I-PRON",
+    "66": "I-PROPN",
+    "67": "I-PUNCT",
+    "68": "I-SCONJ",
+    "69": "I-SCONJ+ADV",
+    "70": "I-VERB",
+    "71": "I-VERB+NOUN",
+    "72": "I-VERB+PART",
+    "73": "I-VERB+SCONJ",
+    "74": "I-VERT",
+    "75": "I-X",
+    "76": "INTJ",
+    "77": "NOUN",
+    "78": "NOUN+ADP",
+    "79": "NOUN+NOUN",
+    "80": "NOUN+VERB",
+    "81": "NUM",
+    "82": "PART",
+    "83": "PART+VERB",
+    "84": "PROPN",
+    "85": "PUNCT",
+    "86": "SCONJ",
+    "87": "SYM",
+    "88": "VERB",
+    "89": "VERB+AUX",
+    "90": "VERB+NOUN",
+    "91": "VERB+PART",
+    "92": "VERB+VERB",
+    "93": "VERT",
+    "94": "X"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "ADP": 0,
+    "ADV": 1,
+    "AUX": 2,
+    "AUX+NOUN": 3,
+    "B-ADP": 4,
+    "B-ADP+VERB+NOUN": 5,
+    "B-ADV": 6,
+    "B-AUX": 7,
+    "B-AUX+PART": 8,
+    "B-CCONJ": 9,
+    "B-DET": 10,
+    "B-DET+NOUN": 11,
+    "B-INFR.EV": 12,
+    "B-INTJ": 13,
+    "B-NOUN": 14,
+    "B-NOUN+ADP": 15,
+    "B-NOUN+ADP+NOUN": 16,
+    "B-NOUN+ADP+VERB": 17,
+    "B-NOUN+ADV": 18,
+    "B-NOUN+NOUN": 19,
+    "B-NOUN+VERB": 20,
+    "B-NUM": 21,
+    "B-NUM+NOUN": 22,
+    "B-PART": 23,
+    "B-PART+AUX": 24,
+    "B-PART+NOUN": 25,
+    "B-PART+VERB": 26,
+    "B-PRON": 27,
+    "B-PROPN": 28,
+    "B-PUNCT": 29,
+    "B-SCONJ": 30,
+    "B-SCONJ+ADV": 31,
+    "B-VERB": 32,
+    "B-VERB+NOUN": 33,
+    "B-VERB+PART": 34,
+    "B-VERB+SCONJ": 35,
+    "B-VERT": 36,
+    "B-X": 37,
+    "CCONJ": 38,
+    "DET": 39,
+    "DET+NOUN": 40,
+    "DET+SCONJ+VERB": 41,
+    "I-ADP": 42,
+    "I-ADP+VERB+NOUN": 43,
+    "I-ADV": 44,
+    "I-AUX": 45,
+    "I-AUX+PART": 46,
+    "I-CCONJ": 47,
+    "I-DET": 48,
+    "I-DET+NOUN": 49,
+    "I-INFR.EV": 50,
+    "I-INTJ": 51,
+    "I-NOUN": 52,
+    "I-NOUN+ADP": 53,
+    "I-NOUN+ADP+NOUN": 54,
+    "I-NOUN+ADP+VERB": 55,
+    "I-NOUN+ADV": 56,
+    "I-NOUN+NOUN": 57,
+    "I-NOUN+VERB": 58,
+    "I-NUM": 59,
+    "I-NUM+NOUN": 60,
+    "I-PART": 61,
+    "I-PART+AUX": 62,
+    "I-PART+NOUN": 63,
+    "I-PART+VERB": 64,
+    "I-PRON": 65,
+    "I-PROPN": 66,
+    "I-PUNCT": 67,
+    "I-SCONJ": 68,
+    "I-SCONJ+ADV": 69,
+    "I-VERB": 70,
+    "I-VERB+NOUN": 71,
+    "I-VERB+PART": 72,
+    "I-VERB+SCONJ": 73,
+    "I-VERT": 74,
+    "I-X": 75,
+    "INTJ": 76,
+    "NOUN": 77,
+    "NOUN+ADP": 78,
+    "NOUN+NOUN": 79,
+    "NOUN+VERB": 80,
+    "NUM": 81,
+    "PART": 82,
+    "PART+VERB": 83,
+    "PROPN": 84,
+    "PUNCT": 85,
+    "SCONJ": 86,
+    "SYM": 87,
+    "VERB": 88,
+    "VERB+AUX": 89,
+    "VERB+NOUN": 90,
+    "VERB+PART": 91,
+    "VERB+VERB": 92,
+    "VERT": 93,
+    "X": 94
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "task_specific_params": {
+    "upos_multiword": {
+      "ADP+VERB+NOUN": {
+        "tambe": [
+          "ta",
+          "m",
+          "be"
+        ]
+      },
+      "AUX+NOUN": {
+        "nep": [
+          "ne",
+          "p"
+        ]
+      },
+      "AUX+PART": {
+        "nangonna": [
+          "nangon",
+          "na"
+        ],
+        "nankonna": [
+          "nankon",
+          "na"
+        ]
+      },
+      "DET+NOUN": {
+        "Tamba": [
+          "Tam",
+          "ba"
+        ],
+        "Tampa": [
+          "Tam",
+          "pa"
+        ],
+        "tanpa": [
+          "tan",
+          "pa"
+        ],
+        "tanto": [
+          "tan",
+          "to"
+        ]
+      },
+      "DET+SCONJ+VERB": {
+        "Newaan": [
+          "Ne",
+          "wa",
+          "an"
+        ],
+        "newaan": [
+          "ne",
+          "wa",
+          "an"
+        ]
+      },
+      "NOUN+ADP": {
+        "Kunneiwano": [
+          "Kunnei",
+          "wano"
+        ],
+        "Orota": [
+          "Oro",
+          "ta"
+        ],
+        "Orowano": [
+          "Oro",
+          "wano"
+        ],
+        "Oshmaketa": [
+          "Oshmake",
+          "ta"
+        ],
+        "Pet-samaketa": [
+          "Pet-samake",
+          "ta"
+        ],
+        "Soita": [
+          "Soi",
+          "ta"
+        ],
+        "cheppone": [
+          "cheppo",
+          "ne"
+        ],
+        "keseta": [
+          "kese",
+          "ta"
+        ],
+        "kesta": [
+          "kes",
+          "ta"
+        ],
+        "kunneywano": [
+          "kunney",
+          "wano"
+        ],
+        "neyta": [
+          "ney",
+          "ta"
+        ],
+        "orota": [
+          "oro",
+          "ta"
+        ],
+        "orowa": [
+          "oro",
+          "wa"
+        ],
+        "orowano": [
+          "oro",
+          "wano"
+        ],
+        "oshmaketa": [
+          "oshmake",
+          "ta"
+        ],
+        "otta": [
+          "ot",
+          "ta"
+        ],
+        "petsamaketa": [
+          "petsamake",
+          "ta"
+        ],
+        "samaketa": [
+          "samake",
+          "ta"
+        ],
+        "soyta": [
+          "soy",
+          "ta"
+        ],
+        "tomta": [
+          "tom",
+          "ta"
+        ]
+      },
+      "NOUN+ADP+NOUN": {
+        "rorunpurai": [
+          "ror",
+          "un",
+          "purai"
+        ],
+        "rorunpuray": [
+          "ror",
+          "un",
+          "puray"
+        ]
+      },
+      "NOUN+ADP+VERB": {
+        "soytaarpa": [
+          "soy",
+          "ta",
+          "arpa"
+        ]
+      },
+      "NOUN+ADV": {
+        "Tambeta ne": [
+          "Tambe",
+          "ta ne"
+        ]
+      },
+      "NOUN+NOUN": {
+        "Petetoko": [
+          "Pet",
+          "etoko"
+        ],
+        "Shirokanipe": [
+          "Shirokani",
+          "pe"
+        ],
+        "hekattar": [
+          "hekat",
+          "tar"
+        ],
+        "inaanpe": [
+          "inaan",
+          "pe"
+        ],
+        "inanpe": [
+          "inan",
+          "pe"
+        ],
+        "iporohoka": [
+          "iporoho",
+          "ka"
+        ],
+        "kamuinish": [
+          "kamui",
+          "nish"
+        ],
+        "kamuynis": [
+          "kamuy",
+          "nis"
+        ],
+        "konkanipe": [
+          "konkani",
+          "pe"
+        ],
+        "petetok": [
+          "pet",
+          "etok"
+        ],
+        "petetoko": [
+          "pet",
+          "etoko"
+        ],
+        "sirokanipe": [
+          "sirokani",
+          "pe"
+        ]
+      },
+      "NOUN+VERB": {
+        "Omakun": [
+          "Omak",
+          "un"
+        ],
+        "Orepun": [
+          "Orep",
+          "un"
+        ],
+        "Shiriki": [
+          "Shiri",
+          "ki"
+        ],
+        "kotankor": [
+          "kotan",
+          "kor"
+        ],
+        "makun": [
+          "mak",
+          "un"
+        ],
+        "repun": [
+          "rep",
+          "un"
+        ],
+        "rikunruke": [
+          "rik",
+          "unruke"
+        ],
+        "siriki": [
+          "siri",
+          "ki"
+        ],
+        "ukakushte": [
+          "uka",
+          "kushte"
+        ],
+        "ukakuste": [
+          "uka",
+          "kuste"
+        ],
+        "uraikik": [
+          "urai",
+          "kik"
+        ]
+      },
+      "NUM+NOUN": {
+        "Wanto": [
+          "Wan",
+          "to"
+        ],
+        "hotnepa": [
+          "hotne",
+          "pa"
+        ],
+        "wanpe": [
+          "wan",
+          "pe"
+        ],
+        "wanto": [
+          "wan",
+          "to"
+        ]
+      },
+      "PART+AUX": {
+        "chine": [
+          "chi",
+          "ne"
+        ]
+      },
+      "PART+NOUN": {
+        "=anpe": [
+          "=an",
+          "pe"
+        ],
+        "eisam": [
+          "ei",
+          "sam"
+        ]
+      },
+      "PART+VERB": {
+        "ainu-wap": [
+          "a",
+          "inu-wap"
+        ],
+        "akus": [
+          "a",
+          "kus"
+        ],
+        "chiki": [
+          "chi",
+          "ki"
+        ],
+        "chikik": [
+          "chi",
+          "kik"
+        ],
+        "eram an": [
+          "e",
+          "ram an"
+        ],
+        "eramasu": [
+          "e",
+          "ramasu"
+        ],
+        "karapa": [
+          "k",
+          "arapa"
+        ]
+      },
+      "SCONJ+ADV": {
+        "koiramno": [
+          "ko",
+          "iramno"
+        ]
+      },
+      "VERB+AUX": {
+        "sattek": [
+          "sat",
+          "tek"
+        ]
+      },
+      "VERB+NOUN": {
+        "Hesepa": [
+          "Hese",
+          "pa"
+        ],
+        "ambe": [
+          "am",
+          "be"
+        ],
+        "anpe": [
+          "an",
+          "pe"
+        ],
+        "anto": [
+          "an",
+          "to"
+        ],
+        "h\u00e9sep\u00e1ha": [
+          "h\u00e9se",
+          "p\u00e1ha"
+        ],
+        "kari": [
+          "kar",
+          "i"
+        ],
+        "wenpuri": [
+          "wen",
+          "puri"
+        ]
+      },
+      "VERB+PART": {
+        "kari": [
+          "kar",
+          "i"
+        ],
+        "rokash": [
+          "rok",
+          "ash"
+        ],
+        "sapash": [
+          "sap",
+          "ash"
+        ],
+        "shinotash": [
+          "shinot",
+          "ash"
+        ]
+      },
+      "VERB+SCONJ": {
+        "anak un": [
+          "an",
+          "ak un"
+        ],
+        "anakanakne": [
+          "an",
+          "akanakne"
+        ],
+        "sakno": [
+          "sak",
+          "no"
+        ]
+      },
+      "VERB+VERB": {
+        "ranran": [
+          "ran",
+          "ran"
+        ]
+      }
+    }
+  },
+  "tokenizer_class": "RemBertTokenizerFast",
+  "torch_dtype": "float32",
+  "transformers_version": "4.22.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 6143
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ccc9e2b9cb90186a3e5a43d569cef08f6a24666468f2123f3057708262901cb
+size 361037489

sentencepiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01ba4719c80b6fe911b091a7c05124b64eeece964e09c058ef8f9805daca546b
+size 1

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

supar.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11c0c17bdf57d2fa5f72b5a07f2b4951c2cd3c041a76410fe8ab173777b36e49
+size 408389861

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "eos_token": "[SEP]",
+  "keep_accents": false,
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "[MASK]",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "remove_space": true,
+  "sep_token": "[SEP]",
+  "split_by_punct": true,
+  "tokenizer_class": "RemBertTokenizerFast",
+  "unk_token": "[UNK]"
+}