File size: 1,910 Bytes

62e48e5
 
 
bd9219f
8eb42a0
f416eaa
08dee86
ba7e545
f416eaa
110f458
62e48e5
bd9219f
8eb42a0
f416eaa
cd41a81
edc37d4
8eb42a0
f416eaa
8eb42a0
cd41a81
 
 
 
8eb42a0
f416eaa
00aa8fd

---
license: llama3
---
**モデル概要**  
Llama-3-8b-Cosmopedia-japaneseモデルは、優れた性能を認められているLlama-3-8bモデルの日本語ドメインへの適応を目的として設計しました。

Llama-3-8bはその高い能力にも関わらず、英語と日本語の推論結果には顕著な差があります。
日本語での問いかけに対しても英語で返答するバイアスが強く、日本語でのパフォーマンスが劣っていました。

Llama-3-8bの高度な論理的推論能力を損なうことなく、日本語に適応させることを目標としました。

**外部翻訳システムを利用したトレーニングと開発**   
適応戦略として、高性能でライセンスがApache2.0のMixtralを利用したcosmopediaという合成データセットを利用しました。

* [HuggingFaceTB/cosmopedia](HuggingFaceTB/cosmopedia)  

cosmopediaには、高品質なMixtral8x7Bのアウトプットのみで構成されており、推論能力の中核を凝縮した余計なノイズを含まないことが特徴です。

しかしcosmopediaは英語で構成されており、Mixtral自身も日本語表現を苦手とすることから、まず外部の翻訳システムを通じて日本語に翻訳しています。

* [aixsatoshi/cosmopedia-japanese-100k](https://huggingface.co/datasets/aixsatoshi/cosmopedia-japanese-100k)  
* [aixsatoshi/cosmopedia-japanese-20k](https://huggingface.co/datasets/aixsatoshi/cosmopedia-japanese-20k)

この日本語化cosmopediaデータを使用してLlama-3-8bモデルの追加トレーニングを行うことで日本語ドメインへの適応を図りました。

Llama-3-8bの論理的推論能力を日本語のコンテキストに円滑に移行させ、アウトプット言語のバイアスを日本語方向に移動させることを目標としています。