File size: 1,703 Bytes
3b1e6d2
 
 
 
 
 
43a0ae0
3b1e6d2
 
 
 
43a0ae0
 
 
 
 
 
 
3b1e6d2
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
43a0ae0
3b1e6d2
 
 
43a0ae0
3b1e6d2
 
 
 
 
 
 
43a0ae0
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
---
license: cc-by-4.0
datasets:
- ddyuudd/chatbot_arena_ja_calm2-7b-chat-experimental
language:
- ja
- en
---

# Model Card for "calm2-7b-chat-dpo-experimental"

[cyberagent/calm2-7b-chat](https://huggingface.co/cyberagent/calm2-7b-chat)に[ChatBot Arena (JA+calm2)](ddyuudd/chatbot_arena_ja_calm2-7b-chat-experimental)データセットを用いて[Direct Preference Optimization](https://arxiv.org/abs/2305.18290)をしたモデルです。

## Requirements, Usage, Chat Template

[cyberagent/calm2-7b-chat](https://huggingface.co/cyberagent/calm2-7b-chat)と同様です。

## 実験結果

### ELYZA-tasks-100 (GPT-4 eval)

実験結果のランダム性を避けるため、greedy searchで出力しました。

| calm2-7b-chat | calm2-7b-chat-dpo |
| ---- | ---- | 
| 2.67 | 2.85 |


### Japanese MT-Bench

以下の文をシステムプロンプト(system_message)としてcalm2-7b-chat-dpoとcalm2-7b-chatの評価を行いました。

"以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"

このシステムプロンプトはstabilityai/japanese-stablelm-instruct-alpha-7bをJapanese MT-Benchで評価する場合に使われるものです。
他のデコーディングパラメータはデフォルトのままです(ランダム性があります)。

| | calm2-7b-chat | calm2-7b-chat-dpo |
| ---- | ---- | ---- | 
| 平均 | 6.1 | 6.7 |
| extraction |	4.1	| 5.4 |
| humanities	| 8.2	| 8.4 |
| reasoning	| 3.9	| 4.3 |
| roleplay	| 6.4	| 7.0 |
| stem	| 6.3	| 6.2 |
| writing	| 7.7	| 9.1 |


## Author

Yuu Jinnai (jinnai_yu@cyberagent.co.jp), Standing on the shoulders of giants