asaoka
/

Llama-2-7b-hf-qlora-dolly15k-japanese

Model card Files Files and versions Community

asaoka commited on Feb 7, 2024

Commit

2c67ae3

·

verified ·

1 Parent(s): fa61667

Update README.md

Files changed (1) hide show

README.md +9 -3

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ model = AutoModelForCausalLM.from_pretrained(
 # トークナイザーの読み込み
 tokenizer = AutoTokenizer.from_pretrained(
-    "meta-llama/Llama-2-7b-hf"
 )
 # LoRAの読み込み
@@ -50,9 +50,15 @@ print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 使用方法は，[「Google Colab で Llama-2-7B のQLoRA ファインチューニングを試す」](https://note.com/npaka/n/na7c631175111#f2af0e53-4ef3-4288-b152-6524f1b940a7)を参照しました．
-# トークナイザー
-- [meta-llama/Llama-2-7b-hf](https://huggingface.co/meta-llama/Llama-2-7b-hf)のトークナイザーをそのまま使用
 # トレーニング方法

 # トークナイザーの読み込み
 tokenizer = AutoTokenizer.from_pretrained(
+    "asaoka/Llama-2-7b-hf-qlora-dolly15k-japanese",
 )
 # LoRAの読み込み
 使用方法は，[「Google Colab で Llama-2-7B のQLoRA ファインチューニングを試す」](https://note.com/npaka/n/na7c631175111#f2af0e53-4ef3-4288-b152-6524f1b940a7)を参照しました．
+# トークナイザーの日本語拡張
+## 1. 日本語専用のトークナイザーを学習
+トークナイザー学習は，[ce-lery/japanese-mistral-300m-base](https://huggingface.co/ce-lery/japanese-mistral-300m-base)を参照しました．
+## 2. 日本語専用トークナイザーと[meta-llama/Llama-2-7b-hf](https://huggingface.co/meta-llama/Llama-2-7b-hf)のトークナイザーをマージ
+トークナイザーのマージは，[「日本語が話せるLlamaモデルをDIYする」](https://qiita.com/Taiyou2000/items/3229d320c252d6de33c7)を参照しました．
 # トレーニング方法