File size: 5,477 Bytes
be84008
 
 
 
 
 
 
 
 
 
 
2f99540
 
 
 
 
 
 
 
 
 
be84008
 
 
 
ee009eb
be84008
6eea254
 
 
 
 
be84008
 
 
2f99540
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
be84008
 
 
2f99540
 
 
 
 
 
 
 
 
 
 
 
 
 
be84008
 
 
2f99540
 
 
be84008
 
 
 
 
 
 
 
 
 
 
 
6eea254
2f99540
be84008
 
 
 
 
 
2f99540
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6eea254
 
 
 
 
be84008
 
 
 
d301f82
aad44c5
d301f82
aad44c5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
---
tags:
- generated_from_trainer
metrics:
- precision
- recall
- f1
- accuracy
model-index:
- name: KoELECTRA-small-v3-modu-ner
  results: []
language:
- ko
pipeline_tag: token-classification
widget:
- text: "서울역으로 안내해줘."
  example_title: "Example 1"
- text: "에어컨 온도 3도 올려줘."
  example_title: "Example 2"
- text: "아이유 노래 검색해줘."
  example_title: "Example 3"
---

# KoELECTRA-small-v3-modu-ner

This model is a fine-tuned version of [monologg/koelectra-small-v3-discriminator](https://huggingface.co/monologg/koelectra-small-v3-discriminator) on an unknown dataset.
It achieves the following results on the evaluation set:
- Loss: 0.1443
- Precision: 0.8176
- Recall: 0.8401
- F1: 0.8287
- Accuracy: 0.9615

## Model description

태깅 시스템 : BIO 시스템
- B-(begin) : 개체명이 시작할 때
- I-(inside) : 토큰이 개체명 중간에 있을 때
- O(outside) : 토큰이 개체명이 아닐 경우

한국정보통신기술협회(TTA) 대분류 기준을 따르는 15 가지의 태그셋

| 분류          | 표기 | 정의        |
|:------------:|:---:|:-----------|
| ARTIFACTS    | AF  | 사람에 의해 창조된 인공물로 문화재, 건물, 악기, 도로, 무기, 운송수단, 작품명, 공산품명이 모두 이에 해당 |
| ANIMAL       | AM  | 사람을 제외한 짐승 |
| CIVILIZATION | CV  | 문명/문화 |
| DATE         | DT  | 기간 및 계절, 시기/시대 |
| EVENT        | EV  | 특정 사건/사고/행사 명칭 |
| STUDY_FIELD  | FD  | 학문 분야, 학파 및 유파 |
| LOCATION     | LC  | 지역/장소와 지형/지리 명칭 등을 모두 포함 |
| MATERIAL     | MT  | 원소 및 금속, 암석/보석, 화학물질 |
| ORGANIZATION | OG  | 기관 및 단체 명칭 |
| PERSON       | PS  | 인명 및 인물의 별칭 (유사 인물 명칭 포함) |
| PLANT        | PT  | 꽃/나무, 육지식물, 해초류, 버섯류, 이끼류 |
| QUANTITY     | QT  | 수량/분량, 순서/순차, 수사로 이루어진 표현 |
| TIME         | TI  | 시계상으로 나타나는 시/시각, 시간 범위 |
| TERM         | TM  | 타 개체명에서 정의된 세부 개체명 이외의 개체명 |
| THEORY       | TR  | 특정 이론, 법칙 원리 등 |

## Intended uses & limitations

### How to use
You can use this model with Transformers *pipeline* for NER.
```python
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
model = AutoModelForTokenClassification.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer)

example = "서울역으로 안내해줘."
ner_results = ner(example)
print(ner_results)
```

## Training and evaluation data

개체명 인식(NER) 모델 학습 데이터 셋
- 문화체육관광부 > 국립국어원 > 모두의 말뭉치 > 개체명 분석 말뭉치 2021
- https://corpus.korean.go.kr/request/reausetMain.do

## Training procedure

### Training hyperparameters

The following hyperparameters were used during training:
- learning_rate: 5e-05
- train_batch_size: 64
- eval_batch_size: 64
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 3787
- num_epochs: 18 (= 10 + 3 + 5)
- mixed_precision_training: Native AMP

### Training results

| Training Loss | Epoch | Step  | Validation Loss | Precision | Recall | F1     | Accuracy |
|:-------------:|:-----:|:-----:|:---------------:|:---------:|:------:|:------:|:--------:|
| No log        | 1.0   | 3788  | 0.3021          | 0.6356    | 0.6380 | 0.6368 | 0.9223   |
| No log        | 2.0   | 7576  | 0.1905          | 0.7397    | 0.7441 | 0.7419 | 0.9431   |
| No log        | 3.0   | 11364 | 0.1612          | 0.7611    | 0.7897 | 0.7751 | 0.9505   |
| No log        | 4.0   | 15152 | 0.1494          | 0.7855    | 0.7998 | 0.7926 | 0.9544   |
| No log        | 5.0   | 18940 | 0.1427          | 0.7833    | 0.8194 | 0.8009 | 0.9559   |
| No log        | 6.0   | 22728 | 0.1398          | 0.7912    | 0.8223 | 0.8064 | 0.9572   |
| No log        | 7.0   | 26516 | 0.1361          | 0.8035    | 0.8240 | 0.8136 | 0.9587   |
| No log        | 8.0   | 30304 | 0.1360          | 0.8047    | 0.8280 | 0.8162 | 0.9592   |
| No log        | 9.0   | 34092 | 0.1346          | 0.8058    | 0.8299 | 0.8177 | 0.9596   |
| 0.2256        | 10.0  | 37880 | 0.1350          | 0.8068    | 0.8308 | 0.8186 | 0.9598   |
| 3회 훈련 추가 ||||||||
| No log        | 1.0   | 3788  | 0.1367          | 0.8089    | 0.8240 | 0.8164 | 0.9595   |
| No log        | 2.0   | 7576  | 0.1345          | 0.8130    | 0.8331 | 0.8229 | 0.9604   |
| 0.0953        | 3.0   | 11364 | 0.1370          | 0.8146    | 0.8349 | 0.8246 | 0.9609   |
| 5회 훈련 추가 ||||||||
| No log        | 1.0   | 3788  | 0.1511          | 0.8095    | 0.8257 | 0.8176 | 0.9594   |
| No log        | 2.0   | 7576  | 0.1461          | 0.8121    | 0.8339 | 0.8228 | 0.9600   |
| No log        | 3.0   | 11364 | 0.1417          | 0.8139    | 0.8372 | 0.8254 | 0.9607   |
| No log        | 4.0   | 15152 | 0.1418          | 0.8238    | 0.8346 | 0.8292 | 0.9617   |
| 0.0748        | 5.0   | 18940 | 0.1443          | 0.8176    | 0.8401 | 0.8287 | 0.9615   |


### Framework versions

- Transformers 4.27.4
- Pytorch 2.0.0+cu118
- Datasets 2.11.0
- Tokenizers 0.13.2