cyberagent
/

calm2-7b-chat-dpo-experimental

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

ddyuudd commited on Jan 23

Commit

43a0ae0

•

1 Parent(s): 3b1e6d2

Update README.md

Files changed (1) hide show

README.md +14 -3

README.md CHANGED Viewed

@@ -4,10 +4,18 @@ datasets:
 - ddyuudd/chatbot_arena_ja_calm2-7b-chat-experimental
 language:
 - ja
 ---
 # Model Card for "calm2-7b-chat-dpo-experimental"
 ### ELYZA-tasks-100 (GPT-4 eval)
@@ -25,12 +33,11 @@ language:
 "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
 このシステムプロンプトはstabilityai/japanese-stablelm-instruct-alpha-7bをJapanese MT-Benchで評価する場合に使われるものです。
-他のデコーディングパラメータはデフォルトのままです。
 | | calm2-7b-chat | calm2-7b-chat-dpo |
 | ---- | ---- | ---- |
-| MEAN | 6.1 | 6.7 |
 | extraction |	4.1	| 5.4 |
 | humanities	| 8.2	| 8.4 |
 | reasoning	| 3.9	| 4.3 |
@@ -38,3 +45,7 @@ language:
 | stem	| 6.3	| 6.2 |
 | writing	| 7.7	| 9.1 |

 - ddyuudd/chatbot_arena_ja_calm2-7b-chat-experimental
 language:
 - ja
+- en
 ---
 # Model Card for "calm2-7b-chat-dpo-experimental"
+[cyberagent/calm2-7b-chat](https://huggingface.co/cyberagent/calm2-7b-chat)に[ChatBot Arena (JA+calm2)](ddyuudd/chatbot_arena_ja_calm2-7b-chat-experimental)データセットを用いて[Direct Preference Optimization](https://arxiv.org/abs/2305.18290)をしたモデルです。
+## Requirements, Usage, Chat Template
+[cyberagent/calm2-7b-chat](https://huggingface.co/cyberagent/calm2-7b-chat)と同様です。
+## 実験結果
 ### ELYZA-tasks-100 (GPT-4 eval)
 "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
 このシステムプロンプトはstabilityai/japanese-stablelm-instruct-alpha-7bをJapanese MT-Benchで評価する場合に使われるものです。
+他のデコーディングパラメータはデフォルトのままです（ランダム性があります）。
 | | calm2-7b-chat | calm2-7b-chat-dpo |
 | ---- | ---- | ---- |
+| 平均 | 6.1 | 6.7 |
 | extraction |	4.1	| 5.4 |
 | humanities	| 8.2	| 8.4 |
 | reasoning	| 3.9	| 4.3 |
 | stem	| 6.3	| 6.2 |
 | writing	| 7.7	| 9.1 |
+## Author
+Yuu Jinnai (jinnai_yu@cyberagent.co.jp), Standing on the shoulders of giants