File size: 5,477 Bytes
be84008 2f99540 be84008 ee009eb be84008 6eea254 be84008 2f99540 be84008 2f99540 be84008 2f99540 be84008 6eea254 2f99540 be84008 2f99540 6eea254 be84008 d301f82 aad44c5 d301f82 aad44c5 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 |
---
tags:
- generated_from_trainer
metrics:
- precision
- recall
- f1
- accuracy
model-index:
- name: KoELECTRA-small-v3-modu-ner
results: []
language:
- ko
pipeline_tag: token-classification
widget:
- text: "서울역으로 안내해줘."
example_title: "Example 1"
- text: "에어컨 온도 3도 올려줘."
example_title: "Example 2"
- text: "아이유 노래 검색해줘."
example_title: "Example 3"
---
# KoELECTRA-small-v3-modu-ner
This model is a fine-tuned version of [monologg/koelectra-small-v3-discriminator](https://huggingface.co/monologg/koelectra-small-v3-discriminator) on an unknown dataset.
It achieves the following results on the evaluation set:
- Loss: 0.1443
- Precision: 0.8176
- Recall: 0.8401
- F1: 0.8287
- Accuracy: 0.9615
## Model description
태깅 시스템 : BIO 시스템
- B-(begin) : 개체명이 시작할 때
- I-(inside) : 토큰이 개체명 중간에 있을 때
- O(outside) : 토큰이 개체명이 아닐 경우
한국정보통신기술협회(TTA) 대분류 기준을 따르는 15 가지의 태그셋
| 분류 | 표기 | 정의 |
|:------------:|:---:|:-----------|
| ARTIFACTS | AF | 사람에 의해 창조된 인공물로 문화재, 건물, 악기, 도로, 무기, 운송수단, 작품명, 공산품명이 모두 이에 해당 |
| ANIMAL | AM | 사람을 제외한 짐승 |
| CIVILIZATION | CV | 문명/문화 |
| DATE | DT | 기간 및 계절, 시기/시대 |
| EVENT | EV | 특정 사건/사고/행사 명칭 |
| STUDY_FIELD | FD | 학문 분야, 학파 및 유파 |
| LOCATION | LC | 지역/장소와 지형/지리 명칭 등을 모두 포함 |
| MATERIAL | MT | 원소 및 금속, 암석/보석, 화학물질 |
| ORGANIZATION | OG | 기관 및 단체 명칭 |
| PERSON | PS | 인명 및 인물의 별칭 (유사 인물 명칭 포함) |
| PLANT | PT | 꽃/나무, 육지식물, 해초류, 버섯류, 이끼류 |
| QUANTITY | QT | 수량/분량, 순서/순차, 수사로 이루어진 표현 |
| TIME | TI | 시계상으로 나타나는 시/시각, 시간 범위 |
| TERM | TM | 타 개체명에서 정의된 세부 개체명 이외의 개체명 |
| THEORY | TR | 특정 이론, 법칙 원리 등 |
## Intended uses & limitations
### How to use
You can use this model with Transformers *pipeline* for NER.
```python
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
model = AutoModelForTokenClassification.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer)
example = "서울역으로 안내해줘."
ner_results = ner(example)
print(ner_results)
```
## Training and evaluation data
개체명 인식(NER) 모델 학습 데이터 셋
- 문화체육관광부 > 국립국어원 > 모두의 말뭉치 > 개체명 분석 말뭉치 2021
- https://corpus.korean.go.kr/request/reausetMain.do
## Training procedure
### Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 5e-05
- train_batch_size: 64
- eval_batch_size: 64
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 3787
- num_epochs: 18 (= 10 + 3 + 5)
- mixed_precision_training: Native AMP
### Training results
| Training Loss | Epoch | Step | Validation Loss | Precision | Recall | F1 | Accuracy |
|:-------------:|:-----:|:-----:|:---------------:|:---------:|:------:|:------:|:--------:|
| No log | 1.0 | 3788 | 0.3021 | 0.6356 | 0.6380 | 0.6368 | 0.9223 |
| No log | 2.0 | 7576 | 0.1905 | 0.7397 | 0.7441 | 0.7419 | 0.9431 |
| No log | 3.0 | 11364 | 0.1612 | 0.7611 | 0.7897 | 0.7751 | 0.9505 |
| No log | 4.0 | 15152 | 0.1494 | 0.7855 | 0.7998 | 0.7926 | 0.9544 |
| No log | 5.0 | 18940 | 0.1427 | 0.7833 | 0.8194 | 0.8009 | 0.9559 |
| No log | 6.0 | 22728 | 0.1398 | 0.7912 | 0.8223 | 0.8064 | 0.9572 |
| No log | 7.0 | 26516 | 0.1361 | 0.8035 | 0.8240 | 0.8136 | 0.9587 |
| No log | 8.0 | 30304 | 0.1360 | 0.8047 | 0.8280 | 0.8162 | 0.9592 |
| No log | 9.0 | 34092 | 0.1346 | 0.8058 | 0.8299 | 0.8177 | 0.9596 |
| 0.2256 | 10.0 | 37880 | 0.1350 | 0.8068 | 0.8308 | 0.8186 | 0.9598 |
| 3회 훈련 추가 ||||||||
| No log | 1.0 | 3788 | 0.1367 | 0.8089 | 0.8240 | 0.8164 | 0.9595 |
| No log | 2.0 | 7576 | 0.1345 | 0.8130 | 0.8331 | 0.8229 | 0.9604 |
| 0.0953 | 3.0 | 11364 | 0.1370 | 0.8146 | 0.8349 | 0.8246 | 0.9609 |
| 5회 훈련 추가 ||||||||
| No log | 1.0 | 3788 | 0.1511 | 0.8095 | 0.8257 | 0.8176 | 0.9594 |
| No log | 2.0 | 7576 | 0.1461 | 0.8121 | 0.8339 | 0.8228 | 0.9600 |
| No log | 3.0 | 11364 | 0.1417 | 0.8139 | 0.8372 | 0.8254 | 0.9607 |
| No log | 4.0 | 15152 | 0.1418 | 0.8238 | 0.8346 | 0.8292 | 0.9617 |
| 0.0748 | 5.0 | 18940 | 0.1443 | 0.8176 | 0.8401 | 0.8287 | 0.9615 |
### Framework versions
- Transformers 4.27.4
- Pytorch 2.0.0+cu118
- Datasets 2.11.0
- Tokenizers 0.13.2
|