amoeba04
/

koelectra-small-v3-privacy-ner

Token Classification

Inference Endpoints

Model card Files Files and versions Community

koelectra-small-v3-privacy-ner / README.md

amoeba04's picture

Update README.md

1be01f0 verified 5 months ago

|

2.86 kB

	---
	license: apache-2.0
	language:
	- ko
	base_model:
	- monologg/koelectra-small-v3-discriminator
	library_name: transformers
	---
	# KoELECTRA-small-v3-privacy-ner

	This model is a fine-tuned version of [monologg/koelectra-small-v3-discriminator](https://huggingface.co/monologg/koelectra-small-v3-discriminator) on a synthesized privacy dataset. It achieves the following results on the evaluation set:
	- f1 = 0.9998728608843798
	- loss = 0.05310981854414328
	- precision = 0.9999237126509853
	- recall = 0.9998220142897098

	## Model description

	태깅 시스템 : BIO 시스템
	- -B(begin) : 개체명이 시작할 때
	- -I(inside) : 토큰이 개체명 중간에 있을 때
	- O(outside) : 토큰이 개체명이 아닐 경우

	12가지 한국인 개인정보 패턴에 대한 태그셋

	\| 분류 \| 표기 \| 정의 \|
	\|:------------:\|:---:\|:-----------\|
	\| PERSON \| PER \| 한국인 이름 \|
	\| LOCATION \| LOC \| 한국 주소 \|
	\| RESIDENT REGISTRATION NUMBER \| RRN \| 한국인 주민등록번호 \|
	\| EMAIL \| EMA \| 이메일 \|
	\| ID \| ID \| 일반 로그인 ID \|
	\| PASSWORD \| PWD \| 일반 로그인 비밀번호 \|
	\| ORGANIZATION \| ORG \| 소속 기관 \|
	\| PHONE NUMBER \| PHN \| 전화번호 \|
	\| CARD NUMBER \| CRD \| 카드번호 \|
	\| ACCOUNT NUMBER \| ACC \| 계좌번호 \|
	\| PASSPORT NUMBER \| PSP \| 여권번호 \|
	\| DRIVER'S LICENSE NUMBER \| DLN \| 운전면허번호 \|

	### How to use
	You can use this model with Transformers pipeline for NER.
	```python
	from transformers import AutoTokenizer, AutoModelForTokenClassification
	from transformers import pipeline

	tokenizer = AutoTokenizer.from_pretrained("amoeba04/test1")
	model = AutoModelForTokenClassification.from_pretrained("amoeba04/test1")
	ner = pipeline("ner", model=model, tokenizer=tokenizer)

	example = "지난주, 홍길동 씨는 서울특별시 강남구에 위치한 테헤란로 101빌딩에서 진행된 IT 컨퍼런스에 참석했습니다."
	ner_results = ner(example)
	print(ner_results)
	```
	출력: "PER-B, PER-B 씨는 LOC-BLOC-ILOC-I LOC-ILOC-I LOC-ILOC-I LOC-ILOC-I LOC-ILOC-ILOC-I에서 진행된 IT 컨퍼런스에 참석했습니다."

	## Training and evaluation data

	자체 제작한 한국인 개인정보 패턴 기반 개체명 인식 (NER) 데이터셋

	### Training hyperparameters

	The following hyperparameters were used during training:
	- learning_rate: 5e-05
	- train_batch_size: 512
	- eval_batch_size: 1024
	- seed: 42
	- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
	- lr_scheduler_type: linear
	- num_epochs: 1
	- mixed_precision_training: Native AMP

	### Framework versions

	- Transformers 4.40.0
	- Pytorch 2.2.1+cu118
	- Datasets 2.19.0
	- Tokenizers 0.19.1