Model Card for GBST-KEByT5-base (584M #params)
KEByT5: Korean-Enhanced/Enriched Byte-level Text-to-Text Transfer Transformer(T5)์ GBST ๋ฒ์ ์ผ๋ก, CharFormer(Tay et al., 2021)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
Prerequirements / and Model Loading HOW-TO
๋ณธ ๋ชจ๋ธ์ ๊ตฌ๋์ ์ํด์๋ GBSWT5 ๋ชจ๋์ด ํ์ํฉ๋๋ค.
https://github.com/etri-crossmodal/gbswt5
์๋์ ๊ฐ์ด pip๋ฅผ ํตํด ๋ชจ๋์ ์ค์น ๊ฐ๋ฅํฉ๋๋ค. ๋ชจ๋ธ ์ฌ์ฉ ๋ฐฉ๋ฒ์ github๋ฅผ ์ฐธ์กฐํด์ฃผ์ญ์์ค.
pip install git+https://github.com/etri-crossmodal/gbswt5.git
๋๋, ์ต์ ๋ฒ์ ์ Transformers์ ํจ๊ป, ๋ณ๋์ ์ฝ๋ ์์ด ์๋์ ๋ฐฉ๋ฒ์ผ๋ก ๋ชจ๋ธ ์ฌ์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค:
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("etri-lirs/gbst-kebyt5-base-preview")
# ์๋์ ๊ฐ์ด trust_remote_code=True๋ฅผ ๋ถ์์ผ๋ก, ์๋์ผ๋ก ๊ด๋ จ ์ฝ๋๋ฅผ ๋ค์ด๋ก๋ ๋ฐ๊ณ ์ธ ์ ์์ต๋๋ค
model = AutoModelForSeq2SeqLM.from_pretrained("etri-lirs/gbst-kebyt5-base-preview", trust_remote_code=True)
์ฐธ๊ณ ๋ก, ๋ชจ๋ธ์ ํฌํจ๋ ์๊ฒฉ ์ฝ๋์๋ ๋ค์์ ์คํ์์ค ์ํํธ์จ์ด๊ฐ ํฌํจ๋์ด ์์ต๋๋ค:
- This software includes lucidrains/charformer-pytorch GitHub project for GBST implementation, which distributed under MIT License. Copyright (c) 2021 Phil Wang. all rights reserved. (Original Code URL: https://github.com/lucidrains/charformer-pytorch)
- This software includes HuggingFace transformers's T5 implementation for GBST-enabled T5 model, which distributed under Apache 2.0 License. Copyright 2018- The Huggingface team. All rights reserved.
KEByT5: Korean-Enhanced/Enriched Byte-level Text-to-Text Transfer Transformer(T5)
ํฌ๋ก์ค๋ชจ๋ฌ ๋ฐ ๋ค๊ตญ์ด ์นํ์ ์ธ ํ๊ตญ์ด ์ค์ฌ์ ํ ํฐ-ํ๋ฆฌ ์ธ์ด ์ดํด ์์ฑ ๋ชจ๋ธ (EN=Cross-modal, Multilingual Friendly, Token-free Encoder-Decoder Pretrained Language Model for Korean)
- ๋ณธ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ ์๊ฐ, ์ฒญ๊ฐ๊ณผ ๊ฐ์ ํ ์คํธ ์ด์ธ์ ๋ชจ๋ฌ๋ฆฌํฐ์ ๊ต์ฐจ์ธ์ด ์ง์ ๊ตํ์ ์ฉ์ดํ ํ ํฐ-ํ๋ฆฌ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ ๋ชฉํ๋ก ํฉ๋๋ค.
- ๋ณ๋์ tokenizer๊ฐ ํ์์์ง๋ง, ํธ์๋ฅผ ์ํด AutoTokenizer.from_pretrained()๋ฅผ ์ฌ์ฉํ์ฌ ๋ค๋ฅธ ํ ํฌ๋์ด์ ๊ธฐ๋ฐ ์ธ์ฝ๋-๋์ฝ๋ ๋ชจ๋ธ๊ณผ ๋์ผํ๊ฒ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ํ ํฌ๋์ด์ ๋ฅผ ์๋ตํ๊ณ ์ถ์ ๊ฒฝ์ฐ, UTF-8 ์ ๋ ฅ์ ๋ฐ์ดํธ ๋จ์๋ก ์ชผ๊ฐ์ด, ๊ฐ ๋ฐ์ดํธ์ +3์ ํ์ฌ Token ID๋ฅผ ์์ฑํฉ๋๋ค. (์ฆ, ASCII value 0 == Token ID 3, ASCII value 255 == Token ID 258)
- ํ์ฌ Preview ์คํ ์ด์ง์ ์๋ ๋ชจ๋ธ์ด๋ฉฐ, ํ์ฉ์๋ fine-tuning์ด ํ์ํฉ๋๋ค.
- ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ์๋ธ์๋ ํ ํฐํ (Gradient-based Subword Tokenization; CharFormer; Tay et al., 2021;)๋ฅผ ์ ์ฉํ ๋ณธ ๋ชจ๋ธ์, KLUE-MRC์์ ๊ฐ์ ๊ท๋ชจ์ KEByT5-base ๋ชจ๋ธ ๋๋น ํ์ต์์ 2.7๋ฐฐ, ์ถ๋ก ์์ 1.46๋ฐฐ ์ด์์ ํ์ต ์๋๊ฐ ๊ฐ์ ๋์์ต๋๋ค. ์ผ๋ถ ํ์ต/์ถ๋ก ์ฑ๋ฅ์ ๋น๊ต ๊ฐ๋ฅํ ์ฐจ์ด๊ฐ ์์ ์ ์์ต๋๋ค. ์์ธํ ๋ด์ฉ์ ํ์ ํ๊ฐ ์งํ๋ฅผ ์ฐธ๊ณ ํ์ญ์์ค.
Acknowledgements
- ๋ณธ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ 2022๋ ๋ ์ ๋ถ(๊ณผํ๊ธฐ์ ์ ๋ณดํต์ ๋ถ)์ ์ฌ์์ผ๋ก ์ ๋ณดํต์ ๊ธฐํํ๊ฐ์์ ์ง์์ ๋ฐ์ ์ํ๋ ์ฐ๊ตฌ์ (No. RS-2022-00187238, ํจ์จ์ ์ฌ์ ํ์ต์ด ๊ฐ๋ฅํ ํ๊ตญ์ด ๋ํ ์ธ์ด๋ชจ๋ธ ์ฌ์ ํ์ต ๊ธฐ์ ๊ฐ๋ฐ) (EN=This pretrained language model was supported by the Institute of Information & communication Technology Planning & Evaluation(IITP) grant funded by the Korea government(MSIT) (No. RS-2022-00187238, Development of Large Korean Language Model Technology for Efficient Pre-training))
Model Details
๋ณธ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ ๊ท๋ชจ๋ฅผ ๊ฐ์ง๋๋ค:
- kebyt5-small : 330M link
- kebyt5-base : 580M link
- kebyt5-large : 1.23B link
- GBST-kebyt5-base (this model): 584M
์ด๋ค ๋ชจ๋ธ์ google/byt5-small, google/byt5-base, google/byt5-large ๋ชจ๋ธ๊ณผ ๋์ผํ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ฉฐ, ํ ํฌ๋์ด์ (ByT5Tokenizer)์ ๊ตฌํ ์ ๋ ๋ชจ๋ธ์ ๋ณ๋์ ์์ ์์ด ๋ฐ๋ก ๊ตํํ์ฌ ์ฌ์ฉํ ์ ์์ต๋๋ค. huggingface transformers์์์ ์ฌ์ฉ๋ฒ ์ญ์, T5ForConditionalGeneration์ ๋์ผํ๊ฒ ์ฌ์ฉํ ์ ์์ต๋๋ค.
Model Description
- Developed by: Language Intelligence Research Section, Electronics and Telecommunications Research Institute(ETRI)
- Model type: Encoder-Decoder Transformer, specifically, ByT5.
- Language(s) (NLP): Korean, English(partially for translation task), Chinese(partially for translation task), Japanese(partially for translation task).
- License: Apache 2.0 License
- Finetuned from model: kebyt5-small/-base/-xl model weights were initialized by google/byt5-* for Warm-start pretraining.
Model Sources
- Repository: ๋ค์ด์คํธ๋ฆผ ํ์คํฌ ํ์ต์ ์ํด, https://github.com/etri-crossmodal/llm-downstream-s2s
- Paper: ์ ์ข ํ ์ธ, "ํ๊ตญ์ด ์ค์ฌ์ ํ ํฐ-ํ๋ฆฌ ์ธ์ด ์ดํด-์์ฑ ๋ชจ๋ธ ์ฌ์ ํ์ต ์ฐ๊ตฌ", ์ 35ํ ํ๊ธ ๋ฐ ํ๊ตญ์ด ์ ๋ณด์ฒ๋ฆฌ ํ์ ๋ํ ๋ ผ๋ฌธ์ง, pp.711-715. 2023. (EN=Shin et al., "Towards Korean-Centric Token-free Pretrained Language Model", in Procs. of the 35th Annual Conference on Human and Cognitive Language Technology. pp. 711-715. 2023.)
Uses
ํด๋น ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ ์ฐ๊ตฌ ๋ฐ ๊ต์ก ๋ชฉ์ ์ ํ์ฉ์ผ๋ก ๊ทธ ์ฌ์ฉ ๋ชฉ์ ์ด ์ ํ๋ฉ๋๋ค.
Direct Use
ํ์ฌ ๊ณต๊ฐ๋๋ ๋ชจ๋ธ์ T5 ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋ Corrupted span denoising ๋ง์ผ๋ก ํ์ต๋์ด ์์ด, ์ค์ ์์ฉ ํ์คํฌ์ ์ ์ฉํ๊ธฐ ์ํด์๋ fine-tuning ๊ณผ์ ์ด ํ์ํฉ๋๋ค.
Sentinel Token(token id 258, 257, 256, ...)์ ์ฌ์ฉํ์ฌ Masked Token Prediction์ ์ํํ ์ ์์ผ๋, ์์ธก๋ ๋ด์ฉ์๋ ๋ถ์ ์ ํ ๋ด์ฉ์ด ์์ ์ ์์ต๋๋ค.
Downstream Use [optional]
Token-free ๋ชจ๋ธ์ ํน์ฑ ์, ๋ณต์กํ๊ฑฐ๋ Noisyํ ์ ๋ ฅ์ ๊ฐ๊ฑดํ๋ฉฐ, ์งง์ ์ํ์ค ๊ธธ์ด์ ์์ฑ์ ์ ํฉํฉ๋๋ค. (์: ์ธ์ด ์ดํด, ๋ํ ์๋ต ์์ฑ)
์ฌ์ ํ์ต์ 1024 bytes ๊ธธ์ด์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ์ด๊ณผํ๋ ๊ธด ์ํ์ค๋ฅผ ๋ค๋ฃจ๋ ๋ฌธ์ ์ ์ ํฉํ์ง ์์ ์ ์์ต๋๋ค.
๋ ๊ธด ์ํ์ค๋ฅผ ๋ค๋ค์ผ ํ๋ ๋ฌธ์ ์์๋, GBST ๊ธฐ๋ฐ์ ํ ํฐ-ํ๋ฆฌ ์ธ์ด๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ ๊ถ์ฅํฉ๋๋ค.
Bias, Risks, Limitations, and Recommendations
Masked Token Prediction์ ํตํด ํ๋๋ ์ ์๋ ์ ๋ณด์๋ ๋ค๋ฅธ ์์ฑํ ์ธ์ด๋ชจ๋ธ๊ณผ ๊ฐ์ ์ํ์ ๊ฐ์ง๊ณ ์์ ์ ์์ต๋๋ค. ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ๋ ์์ค, ์๋, ์ ์น์ ๋ด์ฉ ๋ฐ ๊ธฐํ ๊ฑฐ์น ์ธ์ด๋ค์ ๋ํ ๋ณ๋์ ์ฒ๋ฆฌ๊ฐ ์ด๋ฃจ์ด์ง์ง ์์์ต๋๋ค. ๋ฐ๋ผ์, ์ฌํ์ ์ผ๋ก ์ฉ์ธ๋์ง ์์ ํ ํฐ์ด๋ ํ ์คํธ๋ฅผ ์์ฑํ ์ ์์ผ๋ฉฐ, ์ฃผ๋ณ ๋ฌธ๋งฅ์ ๋ฐ๋ผ์ ๊ณต๊ฒฉ์ ์ธ ์ ๋ ฅ์ ์ด๋ ํ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ ์ ์์์ง ์ฝ๊ฒ ์์ํ ์ ์์ต๋๋ค.
ํํธ, ๋ณธ ์ธ์ด๋ชจ๋ธ์ ์ฃผ๋ก ํ๊ตญ์ด ํ ์คํธ๋ก ํ์ต๋์์ผ๋ฉฐ, ์ด๋ค์ ํน์ฑ์ ์ ์ดํ ์ ์๋ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ, ๊ทธ ์ค์์๋ ๋ถ๋ฅ, ์์ฝ, ์งง์ ๋ฌธ์ฅ ์์ฑ์ ์ ํฉํ ์ ์์ต๋๋ค. ์ ์ถ๋ ฅ ์์ค์์ ๋ฏธ๋ฑ๋ก์ด(Out-of-Vocabulary)๊ฐ ์กด์ฌํ ์ ์์ผ๋, ์ฌ์ ํ์ต๋์ง ์์ ํ ์คํธ ์ํ์ค์ ๋ํด์๋ ์ถ๊ฐ์ ๋๋ฉ์ธ ์ ์ ํ์ต ๋ฐ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ๋ฏธ์ธ์กฐ์ ์ด ํ์ํฉ๋๋ค.
[More Information Needed]
How to Get Started with the Model
Transformers 4.27.0 ์ด์์ ๋ฒ์ ์์, ๋ค์์ ํ์ด์ฌ ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ๊ณผ tokenizer๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์๊ธฐ์ ์ธ๊ธ๋ ๋ฐ์ ๊ฐ์ด, transformer ๋ชจ๋ ๋ก๋ ์ gbswt5 ๋ชจ๋์ import ํด์ผ ํฉ๋๋ค:
import gbswt5
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("etri-lirs/gbst-kebyt5-base-preview")
model = AutoModelForSeq2SeqLM.from_pretrained("etri-lirs/gbst-kebyt5-base-preview")
Training Details
Training Data
๋ณธ ์ฌ์ ํ์ต์๋ ์๋์ ๊ณต๊ฐ ๋ฐ์ดํฐ๊ฐ ์ฌ์ฉ๋์์ต๋๋ค:
- ๊ตญ๋ฆฝ๊ตญ์ด์, ๋ชจ๋์ ๋ง๋ญ์น. ์ ๋ฌธ v2.0
- ๊ตญ๋ฆฝ๊ตญ์ด์, ๋ชจ๋์ ๋ง๋ญ์น. ๊ตฌ์ด ๋ง๋ญ์น v1.2
- ๊ตญ๋ฆฝ๊ตญ์ด์, ๋ชจ๋์ ๋ง๋ญ์น. ๋ฌธ์ด ๋ง๋ญ์น v1.0
- ๊ตญ๋ฆฝ๊ตญ์ด์, ๋ชจ๋์ ๋ง๋ญ์น. ์ ๋ฌธ 2020 v1.0
- ๊ตญ๋ฆฝ๊ตญ์ด์, ๋ชจ๋์ ๋ง๋ญ์น. ์ ๋ฌธ 2021 v1.0
- ํ๊ตญ์ด ์ํคํผ๋์ด ๋คํ, v2020.09.20
- ๋๋ฌด์ํค ๋คํ
- ํ๊ตญ์ ๋ณดํ์งํฅ์, AIHub. ์ ๋ฌธ๋ถ์ผ ๋ง๋ญ์น, ๋ฒ๋ฅ /ํนํ ์ง์๋ฒ ์ด์ค, ๋ ผ๋ฌธ/๋์/๋ํ/๋๋ณธ ์์ฝ, ํ์/ํ์ผ/ํ์ค ๋ฒ์ญ ๋ง๋ญ์น, ์ฝ์ผํฐ/์ฃผ๋ฌธ/๋ด์ค๊ธฐ์ฌ/์๊ฐ์ ๋ณด ์ง์์๋ต, ๋ฐฉ์ก/ํ์/์๋ด ์์ฑ์ธ์ ๋ฐ์ดํฐ.
- ํ๊ตญ์ ๋ณดํ์งํฅ์, AIHub. ๋๊ท๋ชจ ์น๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ๊ตญ์ด ๋ง๋ญ์น ๋ฐ์ดํฐ
- ํ๊ตญ์ ๋ณดํ์งํฅ์, AIHub. ์จ๋ผ์ธ ๊ตฌ์ด์ฒด ๋ง๋ญ์น ๋ฐ์ดํฐ.
- KcBERT ๋ง๋ญ์น, v2022.3Q
๋ํ, ์๋์ ์์ฒด ๊ตฌ์ถ๋ ๋ฐ์ดํฐ ๋ฐ ํฉ์ฑ ๋ฐ์ดํฐ ์ผ๋ถ๋ฅผ ์ฌ์ฉ, ์ ์ฒด ์ฝ ~220GB ๊ฐ๋์ ๋ฐ์ดํฐ๋ก ํ์ต๋์์ต๋๋ค.
Evaluation
Testing Data, Factors & Metrics & Results
ํ๊ตญ์ด ์ธ์ด ์ดํด ํ์คํฌ์ ์ฌ์ฉ๋๋ KLUE dataset, v1.1์ dev set์ ์ฌ์ฉํ์ฌ ํ๊ฐ๋์์ต๋๋ค. ์์ฑ์ ๋ชจ๋ seq2seq์ ์ด์ฉํ ์ถ๋ ฅ ๋ ์ด๋ธ ์ง์ ์์ฑ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ต๋๋ค.
models | KLUE-TC(YNAT) (F1) | KLUE-NER (Entity, Char F1) | KLUE-DP (UAS, LAS) | KLUE-MRC (EM, ROUGE-W) |
---|---|---|---|---|
google/byt5-large (1.23B) | 78.52 | 48.81, 63.95 | 44.26, 7.805 | NOT TESTED |
KEByT5-Base (580M) | 84.99 | 86.75, 91.05 | 88.70, 85.90 | 62.28, 68.38 |
KEByT5-Large (1.23B) | 85.68 | 88.09, 92.40 | 87.18, 85.52 | 70.07, 75.81 |
GBST-KEByT5-Base (584M) | 85.29 | 87.35, 92.09 | 88.33, 85.00 | 59.69, 66.44 |
๋ํ ์ํ ์ถ์ (DST; Dialogue State Tracking) ํ์คํฌ์ธ KLUE-WOS-v1.1 ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ํ๊ฐ๋ ๋ชจ๋ seq2seq์ ์ด์ฉํ ๋ค์ด์ผ๋ก๊ทธ ์ํ ์ง์ ์์ฑ์ ์ฌ์ฉํ์ต๋๋ค:
models | WOS (JGA, %) | WOS (F1, %) |
---|---|---|
klue/klue-roberta-large | 50.22 | 92.23 |
KEByT5-Base (580M) | 77.15 | 96.92 |
KEByT5-Large (1.23B) | 78.54 | 97.28 |
GBST-KEByt5-base (584M) | 75.94 | 96.73 |
๊ด๊ณ ์ถ์ถ(RE; Relation Extraction) ํ์คํฌ์ธ KLUE-RE-v1.1 ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. no_relation์ ์ ์ธํ 29๊ฐ์ ๊ด๊ณ ํด๋์ค์ ๋ํ Micro F1 ๊ฒฐ๊ณผ์ ๋๋ค:
models | KLUE-RE (F1, %) |
---|---|
klue/klue-roberta-base | 65.90 |
KEByT5-Base (580M) | 65.48 |
KEByT5-Large (1.23B) | 68.95 |
GBST ์ ์ฉ์ ํตํ ํจ์จํ ๊ฐ์ ์ ๋ค์๊ณผ ๊ฐ์ด ํ๊ฐ๋์์ต๋๋ค. ํ๊ฐ ํ๊ฒฝ์ A100 PCIE 80GB๊ฐ ์ฌ์ฉ๋์์ผ๋ฉฐ, ์ ๋ฐ๋๋ bfloat16์์ ์ธก์ ๋์์ต๋๋ค. ํ์ต ๋ฐ ํ๊ฐ์๋ KLUE-MRC ๋ฐ์ดํฐ์ ์ด ์ฌ์ฉ๋์์ต๋๋ค. ์ด๋ค ๋ฐ์ดํฐ์ ์ ๊ธธ์ด๋ ์ต๋ 5800 bytes์ ๋ฌธ๋งฅ์ด ๋ค์ด๊ฐ๋๋ค.
model | training sample/sec. | inference sample/sec. |
---|---|---|
KEByT5-base (580M) | 1.30 | 3.95 |
GBST-KEByT5-base (584M, this model) | 3.56 | 5.77 |
Compute Infrastructure
- Trained on nVidia A100 80GB * 8EA
Citation
- ํ์ ์ธ, "์์ฑํ ์ธ์ด๋ชจ๋ธ์ ์ด์ฉํ ๊ด๊ณ ์ถ์ถ", ์ 35ํ ํ๊ธ ๋ฐ ํ๊ตญ์ด ์ ๋ณด์ฒ๋ฆฌ ํ์ ๋ํ ๋ ผ๋ฌธ์ง. pp.708-710. 2023.
- ์ด๊ธฐ์ ์ธ, "ํ๊ตญ์ด ํ ํฐ-ํ๋ฆฌ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ KeByT5๋ฅผ ์ด์ฉํ ํ๊ตญ์ด ์์ฑ ๊ธฐ๋ฐ ๋ํ ์ํ ์ถ์ ", ์ 35ํ ํ๊ธ ๋ฐ ํ๊ตญ์ด ์ ๋ณด์ฒ๋ฆฌ ํ์ ๋ํ ๋ ผ๋ฌธ์ง. pp.644-647. 2023.
Model Card Authors/Contacts
Jong-hun Shin(ETRI), e-mail=jhshin82 AT etri DOT re DOT kr.
- Downloads last month
- 1