ddyuudd commited on
Commit
3b1e6d2
1 Parent(s): 1bafe89

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +40 -0
README.md ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: cc-by-4.0
3
+ datasets:
4
+ - ddyuudd/chatbot_arena_ja_calm2-7b-chat-experimental
5
+ language:
6
+ - ja
7
+ ---
8
+
9
+ # Model Card for "calm2-7b-chat-dpo-experimental"
10
+
11
+
12
+ ### ELYZA-tasks-100 (GPT-4 eval)
13
+
14
+ 実験結果のランダム性を避けるため、greedy searchで出力しました。
15
+
16
+ | calm2-7b-chat | calm2-7b-chat-dpo |
17
+ | ---- | ---- |
18
+ | 2.67 | 2.85 |
19
+
20
+
21
+ ### Japanese MT-Bench
22
+
23
+ 以下の文をシステムプロンプト(system_message)としてcalm2-7b-chat-dpoとcalm2-7b-chatの評価を行いました。
24
+
25
+ "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
26
+
27
+ このシステムプロンプトはstabilityai/japanese-stablelm-instruct-alpha-7bをJapanese MT-Benchで評価する場合に使われるものです。
28
+ 他のデコーディングパラメータはデフォルトのままです。
29
+
30
+
31
+ | | calm2-7b-chat | calm2-7b-chat-dpo |
32
+ | ---- | ---- | ---- |
33
+ | MEAN | 6.1 | 6.7 |
34
+ | extraction | 4.1 | 5.4 |
35
+ | humanities | 8.2 | 8.4 |
36
+ | reasoning | 3.9 | 4.3 |
37
+ | roleplay | 6.4 | 7.0 |
38
+ | stem | 6.3 | 6.2 |
39
+ | writing | 7.7 | 9.1 |
40
+