Tanuki-8B-vision
モデルについて
Tanuki-8B-visionは、LLaVA1.5に基づく視覚言語モデルです。言語モデルとして、Tanuki-8bのphase1モデル、画像エンコーダとしてgoogle/siglip-so400m-patch14-384を使用しています。
背景
- 近年、視覚言語モデル(VLM)が注目されている一方で、商用利用可能な日本語データセットは限られています。本プロジェクトでは、データの合成を活用してこの課題に取り組むとともに、80億パラメータ(Tanuki-8B-vision)および500億パラメータ(Tanuki-8x8B-vision-exp)のVLMを開発しました
- VLM開発は、GENIAC 松尾研 LLM開発プロジェクトの主要な開発目標としてではなく、有志の参加者によって実験的に行われました
使用したコード
学習
データ合成
評価
使い方
colab(model_pathは要変更)
ローカル
評価
Heron VLM リーダーボード
- Downloads last month
- 60