license: cc-by-sa-4.0
instruct ๋ชจ๋ธ v1.7
<ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ถ>
Open-Orca-ko ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ ํ์คํฌ๋ฅผ ์ถ์ถํ ๋ค ํด๋น ํ์คํฌ์ ๋ง์ถฐ์ NLP ๊ด๋ จ ์คํ์์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ํ์ต๋ฐ์ดํฐ๋ฅผ ์์ฒด์ ์ผ๋ก ์ฝ 4๋ง๊ฑด(์ญ์ฌ, ๊ณผํ, ์ํ, ๊ธฐ๊ณ๋ ํด, ๋ฆฌ๋ทฐ ๋ถ์) ๊ตฌ์ถํ์๊ณ , ๊ทธ ์ธ์ Open-Orca-Ko์์ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ถ ํํฐ๋งํ์ฌ ์ ์ ํด๊ฑฐ๋ KoBEST ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ์ถ๊ฐํ์์ต๋๋ค. aihub ์ผ๋ฐ์์ ๋ฐ ๊ธฐ๊ณ๋ ํด ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์ถ๊ฐ๋ก ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถ(ํํ์ ๊ด๋ จ, ๊ธฐ๊ณ๋ ํด ๊ด๋ จ ๋ฐ ์์ฝ) ๊ฐ์ข ๋ธ๋ก๊ทธ์์ ์ญ์ฌ ๋ฐ ์์ ํด์ฆ๋ฅผ ์ฌ๋์ด ์ง์ ํ์ต๋ฐ์ดํฐ ํํ๋ก ๋ณ๊ฒฝ AI2AI Challenge ๋ฐ์ดํฐ๋ฅผ ํํ๊ณ ๋ฅผ ํตํด ๋ฒ์ญ ๋ฐ ์ค์ญ๋ ๋ถ๋ถ์ ์ฌ๋์ด ์ง์ ์์ ํ๋ ์์ ์ ์ํ ์์ด ๋ฒ์ญ ๋ฐ์ดํฐ ์ํ/ํ์ ๋ฐ์ดํฐ ํ์ต ๋ฐ์ดํฐ๋ก ํ์ฉ ์งํ
์ด 11๋ง๊ฐ์ ํ์ต๋ฐ์ดํฐ๋ก sft๋ฅผ ์งํํ์์ต๋๋ค.
ํ์ฌ, ์๋ก์ด ๋ฒ์ ์ ๋ชจ๋ธ ํ์ต ๋ฐ ์ฑ๋ฅ์ ์ํด Open-Orca ๋ฐ์ดํฐ์
์ผ๋ถ๋ฅผ ๋ฒ์ญํ์ฌ ์ ์ ์ค์ ์์ต๋๋ค.
- ๊ณ ๋ฑํ๊ต ์ญ์ฌ ๋ฌธ์ ๋ฐ TruthfulQA ๊ด๋ จ ๋ฌธ์ ์ถ๊ฐ๋ฅผ ์งํํ์์ต๋๋ค.
- ๊ฐ์ข it ์ง์ ๋ฐ์ดํฐ ์ถ๊ฐ์งํ.
- ๊ธฐ๊ณ๋ ํด ๊ด๋ จ ํ์ต ๋ฐ์ดํฐ๋ฅผ ChatGPT๋ฅผ ํตํด์ ๋ต๋ณ์ ์ป์ด ํ์ต
- ๋ฌธ๋ฒ๊ด๋ จ ํ์ต ๋ฐ์ดํฐ
###ํ์ต ๋ฐ์ดํฐ ํ์ผ์ ๋น๊ณต๊ฐ์
๋๋ค.
<ํ์ต>
ํ์ต์ LoRA๋ฅผ ์ฌ์ฉํ์ฌ A100 40G *2์์ ํ์ต์ ์งํํ์์ต๋๋ค.