jpacifico
/

Chocolatine-14B-Instruct-DPO-v1.2

@@ -21,66 +21,69 @@ Window context = 4k tokens
 ### OpenLLM Leaderboard
-TBD
 ### MT-Bench-French
-Chocolatine-14B-Instruct-DPO-v1.2 is outperforming its base model Phi-3-medium-4k-instruct on [MT-Bench-French](https://huggingface.co/datasets/bofenghuang/mt-bench-french), used with [multilingual-mt-bench](https://github.com/Peter-Devine/multilingual_mt_bench) and GPT-4-Turbo as LLM-judge.
 ```
 ########## First turn ##########
-                                                      score
-model                                         turn
-gpt-4o-mini                                   1     9.28750
-Chocolatine-14B-Instruct-DPO-v1.2             1     8.61250
-Phi-3-medium-4k-instruct                      1     8.22500
-gpt-3.5-turbo                                 1     8.13750
-Chocolatine-3B-Instruct-DPO-Revised           1     7.98750
-Daredevil-8B                                  1     7.88750
-NeuralDaredevil-8B-abliterated                1     7.62500
-Phi-3-mini-4k-instruct                        1     7.21250
-Meta-Llama-3.1-8B-Instruct                    1     7.05000
-vigostral-7b-chat                             1     6.78750
-Mistral-7B-Instruct-v0.3                      1     6.75000
-gemma-2-2b-it                                 1     6.45000
-French-Alpaca-7B-Instruct_beta                1     5.68750
-vigogne-2-7b-chat                             1     5.66250
 ########## Second turn ##########
-                                                       score
-model                                         turn
-gpt-4o-mini                                   2     8.912500
-Chocolatine-14B-Instruct-DPO-v1.2             2     8.337500
-Chocolatine-3B-Instruct-DPO-Revised           2     7.937500
-Phi-3-medium-4k-instruct                      2     7.750000
-gpt-3.5-turbo                                 2     7.679167
-NeuralDaredevil-8B-abliterated                2     7.125000
-Daredevil-8B                                  2     7.087500
-Meta-Llama-3.1-8B-Instruct                    2     6.787500
-Mistral-7B-Instruct-v0.3                      2     6.500000
-Phi-3-mini-4k-instruct                        2     6.487500
-vigostral-7b-chat                             2     6.162500
-gemma-2-2b-it                                 2     6.100000
-French-Alpaca-7B-Instruct_beta                2     5.487395
-vigogne-2-7b-chat                             2     2.775000
 ########## Average ##########
-                                                  score
-model
-gpt-4o-mini                                    9.100000
-Chocolatine-14B-Instruct-DPO-v1.2              8.475000
-Phi-3-medium-4k-instruct                       7.987500
-Chocolatine-3B-Instruct-DPO-Revised            7.962500
-gpt-3.5-turbo                                  7.908333
-Daredevil-8B                                   7.487500
-NeuralDaredevil-8B-abliterated                 7.375000
-Meta-Llama-3.1-8B-Instruct                     6.918750
-Phi-3-mini-4k-instruct                         6.850000
-Mistral-7B-Instruct-v0.3                       6.625000
-vigostral-7b-chat                              6.475000
-gemma-2-2b-it                                  6.275000
-French-Alpaca-7B-Instruct_beta                 5.587866
-vigogne-2-7b-chat                              4.218750
 ```
 ### Usage

 ### OpenLLM Leaderboard
+TBD.
 ### MT-Bench-French
+Chocolatine-14B-Instruct-DPO-v1.2 outperforms its previous versions and its base model Phi-3-medium-4k-instruct on [MT-Bench-French](https://huggingface.co/datasets/bofenghuang/mt-bench-french), used with [multilingual-mt-bench](https://github.com/Peter-Devine/multilingual_mt_bench) and GPT-4-Turbo as LLM-judge.
 ```
 ########## First turn ##########
+                                             score
+model                                 turn
+gpt-4o-mini                           1     9.2875
+Chocolatine-14B-Instruct-4k-DPO       1     8.6375
+Chocolatine-14B-Instruct-DPO-v1.2     1     8.6125
+Phi-3.5-mini-instruct                 1     8.5250
+Chocolatine-3B-Instruct-DPO-v1.2      1     8.3750
+Phi-3-medium-4k-instruct              1     8.2250
+gpt-3.5-turbo                         1     8.1375
+Chocolatine-3B-Instruct-DPO-Revised   1     7.9875
+Daredevil-8B                          1     7.8875
+Meta-Llama-3.1-8B-Instruct            1     7.0500
+vigostral-7b-chat                     1     6.7875
+Mistral-7B-Instruct-v0.3              1     6.7500
+gemma-2-2b-it                         1     6.4500
+French-Alpaca-7B-Instruct_beta        1     5.6875
+vigogne-2-7b-chat                     1     5.6625
 ########## Second turn ##########
+                                               score
+model                                 turn
+gpt-4o-mini                           2     8.912500
+Chocolatine-14B-Instruct-DPO-v1.2     2     8.337500
+Chocolatine-3B-Instruct-DPO-Revised   2     7.937500
+Chocolatine-3B-Instruct-DPO-v1.2      2     7.862500
+Phi-3-medium-4k-instruct              2     7.750000
+Chocolatine-14B-Instruct-4k-DPO       2     7.737500
+gpt-3.5-turbo                         2     7.679167
+Phi-3.5-mini-instruct                 2     7.575000
+Daredevil-8B                          2     7.087500
+Meta-Llama-3.1-8B-Instruct            2     6.787500
+Mistral-7B-Instruct-v0.3              2     6.500000
+vigostral-7b-chat                     2     6.162500
+gemma-2-2b-it                         2     6.100000
+French-Alpaca-7B-Instruct_beta        2     5.487395
+vigogne-2-7b-chat                     2     2.775000
 ########## Average ##########
+                                          score
+model
+gpt-4o-mini                            9.100000
+Chocolatine-14B-Instruct-DPO-v1.2      8.475000
+Chocolatine-14B-Instruct-4k-DPO        8.187500
+Chocolatine-3B-Instruct-DPO-v1.2       8.118750
+Phi-3.5-mini-instruct                  8.050000
+Phi-3-medium-4k-instruct               7.987500
+Chocolatine-3B-Instruct-DPO-Revised    7.962500
+gpt-3.5-turbo                          7.908333
+Daredevil-8B                           7.487500
+Meta-Llama-3.1-8B-Instruct             6.918750
+Mistral-7B-Instruct-v0.3               6.625000
+vigostral-7b-chat                      6.475000
+gemma-2-2b-it                          6.275000
+French-Alpaca-7B-Instruct_beta         5.587866
+vigogne-2-7b-chat                      4.218750
 ```
 ### Usage