File size: 10,066 Bytes
4b858a0 c0d2fd7 9f14e4a 4c86277 a6d8eab ebf51e6 4c86277 ebf51e6 9f19247 ebf51e6 4c86277 ebf51e6 4c86277 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 |
---
license: apache-2.0
language:
- ko
pipeline_tag: text-classification
widget:
- text: 예전에는 주말마다 극장에 놀러갔는데 요새는 좀 안가는 편이에요 [SEP] 댓글 주제를 분류하세요 [SEP] 시네마
- text: >-
인천발 KTX와 관련한 송도역 복합환승센터가 사실상 무산, 단순 철도·버스 위주 환승시설로 만들어진다. 이 때문에 인천시의 인천발
KTX 기점에 앵커시설인 복합환승센터를 통한 인근 지역 경제 활성화를 이뤄낸다는 계획의 차질이 불가피하다. [SEP] 경제에 긍정적인
뉴스인가요? [SEP] 아니요
- text: 마지막에는 k팝 공연보고 좋은 추억 남았으면 좋겠네요 [SEP] 욕설이 포함되어있나요? [SEP] 아니요
datasets:
- nsmc
- jason9693/APEACH
- KETI-AIR/korquad
- klue
- smilegate-ai/kor_unsmile
- kor_nlu
- skt/kobest_v1
---
## 사용 예시
```python
# Load model directly
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("iknow-lab/ko-flan-zero-v0-0731")
model = AutoModelForSequenceClassification.from_pretrained("iknow-lab/ko-flan-zero-v0-0731")
def inference(instruction, input, labels):
instruction = f"{input} [SEP] {instruction}"
inputs = tokenizer([instruction] * len(labels), labels, truncation=True, padding=True, return_tensors="pt")
scores = model(**inputs).logits.squeeze(1).tolist()
output = dict(zip(labels, scores))
print(instruction, output)
inference(
"문장을 감성분류해주세요",
"아 영화 개노잼",
["긍정적", "부정적"]
)
inference(
"글과 관련된 내용을 만들어주세요",
"예전에는 주말마다 극장에 놀러갔는데 요새는 좀 안가는 편이에요",
["영화에 관한 글이다", "드라마에 관한 글입니다"]
)
inference(
"글을 읽고 시장에 미칠 영향을 판단해보세요",
"""인천발 KTX와 관련한 송도역 복합환승센터가 사실상 무산, 단순 철도·버스 위주 환승시설로 만들어진다. 이 때문에 인천시의 인천발 KTX 기점에 앵커시설인 복합환승센터를 통한 인근 지역 경제 활성화를 이뤄낸다는 계획의 차질이 불가피하다.
25일 시에 따르면 연수구 옥련동 104 일대 29만1천725㎡(8만8천평)에 추진 중인 2만8천62가구 규모의 송도역세권구역 도시개발사업과 연계, KTX 송도역 복합환승센터와 상업시설·업무시설 등의 조성을 추진 중이다. """,
["긍정", "부정", "중립"]
)
```
### 실행 결과
```
아 영화 개노잼 [SEP] 문장을 감성분류해주세요
{'긍정적': -7.878206253051758, '부정적': 50.96009826660156}
예전에는 주말마다 극장에 놀러갔는데 요새는 좀 안가는 편이에요 [SEP] 글과 관련된 내용을 만들어주세요
{'영화에 관한 글이다': 25.37109375, '드라마에 관한 글입니다': -31.869916915893555}
인천발 KTX와 관련한 송도역 복합환승센터가 사실상 무산, 단순 철도·버스 위주 환승시설로 만들어진다. 이 때문에 인천시의 인천발 KTX 기점에 앵커시설인 복합환승센터를 통한 인근 지역 경제 활성화를 이뤄낸다는 계획의 차질이 불가피하다.
25일 시에 따르면 연수구 옥련동 104 일대 29만1천725㎡(8만8천평)에 추진 중인 2만8천62가구 규모의 송도역세권구역 도시개발사업과 연계, KTX 송도역 복합환승센터와 상업시설·업무시설 등의 조성을 추진 중이다. [SEP] 글을 읽고 시장에 미칠 영향을 판단해보세요
{'긍정': -61.86758804321289, '부정': 23.72732925415039, '중립': -70.4837417602539}
```
## 학습 데이터 구성
```json
{
"splits": "train",
"tasks": "nsmc,apeach,korquad_v1.0,klue_mrc,klue_nli,klue_ynat,kor_nlu,unsmile,klue_re,kobest_copa,kobest_hellaswag,kobest_boolq,kobest_wic,niklex,nikl_absa",
"max_instance_per_task": 20000,
"split_train": {
"nsmc": 20000,
"apeach": 7895,
"korquad_v1.0": 20000,
"klue_mrc": 17553,
"klue_nli": 8046,
"klue_ynat": 20000,
"kor_nlu": 20000,
"unsmile": 15002,
"klue_re": 20000,
"kobest_copa": 3075,
"kobest_hellaswag": 499,
"kobest_boolq": 3664,
"kobest_wic": 3317,
"niklex": 20000,
"nikl_absa": 2139
},
"split_train_total": 181190
}
```
## 평가(test set)
| task | accuracy |
| --- | --- |
| [nsmc](https://huggingface.co/datasets/nsmc) | 85.92 |
| [jason9693/APEACH](https://huggingface.co/datasets/jason9693/APEACH) | 32.12 |
| [klue-ynat](https://huggingface.co/datasets/klue) | 77.59 |
| [kobest-boolq](https://huggingface.co/datasets/skt/kobest_v1) | 76.99 |
| [kobest-copa](https://huggingface.co/datasets/skt/kobest_v1) | 61.2 |
| [kobest-hellaswag](https://huggingface.co/datasets/skt/kobest_v1) | 코드 버그 있어서 제외 |
| [kobest-sentineg](https://huggingface.co/datasets/skt/kobest_v1) | 55.92 |
| [kobest-wic](https://huggingface.co/datasets/skt/kobest_v1) | 58.49 |
### 평가 방식
- 모델에 `[CLS] {input} [SEP] {instruction} [SEP] label [SEP]` 형식으로 넣고 나온 positive와 negative끼리 비교함.
- positive는 정답 라벨을 사용하고, negative는 정답 라벨이 아닌 모든 라벨을 사용
- 정답 라벨의 점수가 모든 negative보다 높을 경우 맞춘 것으로 간주함. 이런 식으로 accuracy 측정.
테스트에 사용한 매핑 코드
```
klue_ynat_labelToTextDict = {
0: "IT과학",
1: "경제",
2: "사회",
3: "생활문화",
4: "세계",
5: "스포츠",
6: "정치",
}
klue_ynat_labels = set(klue_ynat_labelToTextDict.values())
def klue_ynat_mapper(item):
positives = [klue_ynat_labelToTextDict[item["label"]]]
return {
"instruction": "문장을 읽고 주제를 분류하세요",
"input": item["title"],
"positives": positives,
"negatives": klue_ynat_labels - set(positives)
}
kobest_wic_labels = ["아니오", "예"]
def kobest_wic_mapper(item):
return {
"instruction": "주어진 두 문장에서 단어 {word}은(는) 동일한 의미로 사용되었나요?".format(word=item["word"]),
"input": "문장1: {context_1}\n문장2: {context_2}".format(**item),
"positives": [kobest_wic_labels[item['label']]],
"negatives": [kobest_wic_labels[1 - item['label']]]
}
copa_question = {
"결과": "이후에 이어질 결과는?",
"원인": "이러한 일이 일어난 원인은?"
}
def kobest_copa_mapper(item):
answers = [item["alternative_1"], item["alternative_2"]]
return {
"instruction": copa_question[item["question"]],
"input": item["premise"],
"positives": [answers[item['label']]],
"negatives": [answers[1 - item['label']]]
}
def kobest_hellaswag_mapper(item):
answers = [item[f"ending_{i}"] for i in range(1, 5)]
label = answers[item['label']]
answers.remove(label)
return {
"instruction": "이후에 이어질 내용으로 가장 적절한 것은?",
"input": item["context"],
"positives": [label],
"negatives": answers
}
kobest_boolq_labels = ["아니오", "예"]
def kobest_boolq_mapper(item):
return {
"instruction": item["question"],
"input": item["paragraph"],
"positives": [kobest_boolq_labels[item['label']]],
"negatives": [kobest_boolq_labels[1 - item['label']]]
}
kobest_sentineg_labels = ["부정", "긍정"]
def kobest_sentineg_mapper(item):
return {
"instruction": "주어진 문장의 감정을 분류하세요",
"input": item["sentence"],
"positives": [kobest_boolq_labels[item['label']]],
"negatives": [kobest_boolq_labels[1 - item['label']]]
}
nsmc_labels = ["부정", "긍정"]
def nsmc_mapper(item):
return {
"instruction": "주어진 문장의 감정을 분류하세요",
"input": item["document"],
"positives": [nsmc_labels[item['label']]],
"negatives": [nsmc_labels[1 - item['label']]]
}
apeach_labels = ["혐오 표현이 아닙니다", "혐오표현"]
def apeach_mapper(item):
return {
"instruction": "혐오성을 분류해보세요.",
"input": item["text"],
"positives": [nsmc_labels[item['class']]],
"negatives": [nsmc_labels[1 - item['class']]]
}
EVAL_LIST = {
"klue-ynat": dict(
load_args=dict(
path="klue",
name="ynat",
split="validation"
),
mapper=klue_ynat_mapper
),
"nsmc": dict(
load_args=dict(
path="nsmc",
split="test"
),
mapper=nsmc_mapper
),
"apeach": dict(
load_args=dict(
path="jason9693/APEACH",
split="test"
),
mapper=apeach_mapper
),
"kobest-wic": dict(
load_args=dict(
path="skt/kobest_v1",
name="wic",
split="test"
),
mapper=kobest_wic_mapper
),
"kobest-copa": dict(
load_args=dict(
path="skt/kobest_v1",
name="copa",
split="test"
),
mapper=kobest_copa_mapper
),
"kobest-hellaswag": dict(
load_args=dict(
path="skt/kobest_v1",
name="hellaswag",
split="test"
),
mapper=kobest_hellaswag_mapper
),
"kobest-boolq": dict(
load_args=dict(
path="skt/kobest_v1",
name="boolq",
split="test"
),
mapper=kobest_boolq_mapper
),
"kobest-sentineg": dict(
load_args=dict(
path="skt/kobest_v1",
name="sentineg",
split="test"
),
mapper=kobest_sentineg_mapper
)
}
``` |