File size: 939 Bytes
4b0fc2f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# これはなに?
`stabilityai/japanese-stablelm-base-alpha-7b``rosebleu` データセットで学習した Lora

## 使い方
.\text-generation-webui\loras\Rosebleu となるように配置。  
`text-generation-webui``model` の LoRAから読み込める。

## データセット
https://gitlab.com/open_contents_datasets/Rosebleu  
Hシーンも含まれているみたいですが、特に区別せずに突っ込んでいます。

## 前処理とデータロード
中にあるすべてのtsvを全部繋て、csvにしただけ。
学習プロンプトはこの用にしているので、このフォーマットだと良くなったりすることがあるかもしれないし、ないかもしれない。  
コンテキスト長は2048にしているので、1行が2048トークン以上は切り捨てられているはず。
```
result = f'### name:\n{data_point["name"]}\n\n### text:\n{data_point["text"]}'
```