StatPan's picture
Create README.md
ce3f19f

Midm์˜ ํ† ํฌ๋‚˜์ด์ € ํ•œ๊ตญ์–ด ํ† ํฐ ๊ตฌ์„ฑ์ด ์šฐ์ˆ˜ํ•˜๊ณ , ์‚ฌ์šฉํ•  ๊ฐ€์น˜๊ฐ€ ๋†’๋‹ค๊ณ  ์ƒ๊ฐํ•˜์—ฌ ์—ฐ๊ตฌ ์ค‘์ž…๋‹ˆ๋‹ค.

๊ตณ์ด Midm repo์˜ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ , ๋ผ๋งˆ ๊ฐ์ฒด๋กœ ๋ถˆ๋Ÿฌ์˜ค๋„๋ก ์ปค์Šคํ„ฐ๋งˆ์ด์ง• ํ•œ ์ด์œ ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  1. ์ตœ๊ทผ ๋Œ€๋ถ€๋ถ„ ๋ชจ๋ธ๋“ค์ด LlamaTokenizer๋ฅผ ๋ฒ ์ด์Šค๋กœ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๋งŒ๋“ค๊ณ  ์žˆ์Œ

  2. Midm์˜ ๋‚ด๋ถ€ ์ฝ”๋“œ ๊ตฌ์กฐ ๋˜ํ•œ ๋Œ€์ฒด ๋น„์Šทํ•œ ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ผ๊ฐ€๊ณ  ์žˆ๊ณ  ๋น„์Šทํ•˜๋‚˜, ํŠน์ • ์ปค์Šคํ…€ ์ฝ”๋“œ์˜ ๋‚ด์šฉ์œผ๋กœ ์ธํ•ด, load์‹œ Midm repo์˜ custom code๊ฐ€ ์ž‘๋™ํ•ด์•ผ ์ •์ƒ์ ์œผ๋กœ ๋ถˆ๋Ÿฌ์˜ฌ ์ˆ˜ ์žˆ์Œ(ํ์‡„๋ง์—์„œ๋Š” ๋ถˆ๋Ÿฌ์˜ฌ ๋•Œ repo ์ ‘์†์ด ๋ถˆ๊ฐ€ํ•˜์—ฌ ์˜ค๋ฅ˜ ๋ฐœ์ƒ)

  3. ๋‹ค๋ฅธ ํ† ํฌ๋‚˜์ด์ €์— Midm ํ† ํฌ๋‚˜์ด์ €์˜ ํ† ํฐ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์‚ฌ์šฉํ•ด๋ณด๋ ค ํ–ˆ์œผ๋‚˜, ๋น„์ •์ƒ ์ž‘๋™(tokenize ํ›„, decoding ์‹œ ๋„์–ด์“ฐ๊ธฐ๊ฐ€ ์‚ฌ๋ผ์ง€๋Š” ๋ฌธ์ œ ๋“ฑ)

  4. tokenizer ์ถ”๊ฐ€ ์ปค์Šคํ„ฐ๋งˆ์ด์ง• ์ดํ›„, ์ •์ƒ์ ์ธ save, load ๋ณด์žฅ์„ ์œ„ํ•จ

์ด ๋ ˆํฌ๋Š”

KT-AI/midm-bitext-S-7B-inst-v1[https://huggingface.co/KT-AI/midm-bitext-S-7B-inst-v1]์˜

ํ† ํฌ๋‚˜์ด์ € ๋ชจ๋ธ ์˜ต์…˜์„ ์‚ด์ง ์ˆ˜์ •ํ•˜์—ฌ AutoModel๋กœ ์ž์œ ๋กญ๊ฒŒ ๋ถ€๋ฅด๊ณ  ๋กœ๋“œํ•˜๋„๋ก ๋งŒ๋“  ๊ฒƒ์œผ๋กœ

KT-AIํŒ€ ์š”์ฒญ ์‹œ ๋‚ด๋ ค๊ฐˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.