File size: 2,136 Bytes
7e9e46e a5ff088 3e35b51 a5ff088 3e35b51 a5ff088 3e35b51 a5ff088 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 |
---
license: apache-2.0
---
# Tanuki-8B-vision
## モデルについて
Tanuki-8B-visionは、LLaVA1.5に基づく視覚言語モデルです。言語モデルとして、[Tanuki-8bのphase1モデル](https://huggingface.co/weblab-GENIAC/team_hatakeyama_phase1)、画像エンコーダとして[google/siglip-so400m-patch14-384](https://huggingface.co/google/siglip-so400m-patch14-384)を使用しています。
## 背景
- 近年、視覚言語モデル(VLM)が注目されている一方で、商用利用可能な日本語データセットは限られています。本プロジェクトでは、データの合成を活用してこの課題に取り組むとともに、80億パラメータ([Tanuki-8B-vision](https://huggingface.co/weblab-GENIAC/Tanuki-8B-vision))および500億パラメータ([Tanuki-8x8B-vision-exp](https://huggingface.co/weblab-GENIAC/Tanuki-8x8B-vision-exp))のVLMを開発しました
- VLM開発は、[GENIAC 松尾研 LLM開発プロジェクト](https://weblab.t.u-tokyo.ac.jp/geniac_llm/)の主要な開発目標としてではなく、有志の参加者によって実験的に行われました
## 使用したコード
### 学習
https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP
### データ合成
https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/create-data-for-vlm
### 評価
https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/heron
## 使い方
### colab(model_pathは要変更)
https://github.com/matsuolab/nedo_project_code/blob/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP/demo_llava_gradio.ipynb
### ローカル
https://github.com/matsuolab/nedo_project_code/blob/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP/demo_llava_gradio.py
## 評価
### Heron VLM リーダーボード
GPT-4による評価 (gpt-4-turbo-2024-04-09)
![image/png](https://cdn-uploads.huggingface.co/production/uploads/627a044ccd5b87302d3cd79c/p-ds8XnScNk0nbtVuD38L.png) |