jinwoowef/ner_crf_plus · Hugging Face

한국어 이름 추출 NER 작업 수행에 특화된 모델입니다

기존에 만들었던 final_crf 에 한 단계 더 fine-tuning 시킨 모델입니다. 좀 더 짧은 이름 발화에도 이름을 잘 잡아내도록 fine-tuning 시켰습니다 기존 final_crf는 아래 링크에서 확인할 수 있습니다 https://huggingface.co/jinwoowef/final_crf

cuda 11.4 / python 3.8.19 에서 작성하였습니다

다음의 코드로 모델과 토크나이저를 불러올 수 있습니다


from transformers import AutoModelForTokenClassification, AutoTokenizer

model_name = "jinwoowef/ner_crf_plus"
model = AutoModelForTokenClassification.from_pretrained(model_name)  
tokenizer = AutoTokenizer.from_pretrained(model_name)

한국어 이름 개체명 추출 예시


from transformers import AutoTokenizer, BertForTokenClassification, logging, pipeline
import torch
import pandas as pd

device = "cuda" if torch.cuda.is_available() else "cpu"
# NER 파이프라인 생성 

ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple",device=device)

# 결과 저장을 위한 리스트
ner_results_list = []

sample_data = ## personal data

# NER 수행
for example_text in sample_data:
    ner_results = ner(example_text)
    ner_results_list.append(ner_results)

# 변환된 데이터를 저장할 리스트
formatted_results = []

# 변환 작업
for entry in ner_results_list:
    for entity in entry:
        formatted_results.append({
            'NE_form': entity['word'],
            'NE_label': entity['entity_group'],
            'Score': entity['score'],
            'NE_begin': entity['start'],
            'NE_end': entity['end']
        })

# 변환된 결과를 새로운 DataFrame으로 저장
ner_crf = pd.DataFrame(formatted_results)

# NER 결과 출력 
for result in ner_results_list[:5]:  
    for entity in result:
        print(f"NE_form: {entity['word']}, NE_label: {entity['entity_group']}, Score: {entity['score']:.4f}")

출력물 예시

NE_form: 김수영, NE_label: PS_NAME, Score: 0.9945
NE_form: 하경, NE_label: PS_NAME, Score: 0.7682
NE_form: 김민정, NE_label: PS_NAME, Score: 0.9740
NE_form: 김은정, NE_label: PS_NAME, Score: 0.9997
NE_form: 김희경, NE_label: PS_NAME, Score: 0.8500
NE_form: 김미경, NE_label: PS_NAME, Score: 0.9741
NE_form: 윤, NE_label: PS_NAME, Score: 0.6256
NE_form: 이현태, NE_label: PS_NAME, Score: 0.9996