jpacifico
/

Chocolatine-3B-Instruct-DPO-Revised

@@ -39,63 +39,82 @@ Chocolatine is the best-performing 3B model on the [OpenLLM Leaderboard](https:/
 ### MT-Bench-French
-Chocolatine-3B-Instruct-DPO-Revised is outperforming GPT-3.5-Turbo on [MT-Bench-French](https://huggingface.co/datasets/bofenghuang/mt-bench-french) by Bofeng Huang,
 used with [multilingual-mt-bench](https://github.com/Peter-Devine/multilingual_mt_bench)
 ```
 ########## First turn ##########
-                                           score
-model                               turn
-gpt-3.5-turbo                       1     8.1375
-Chocolatine-3B-Instruct-DPO-Revised 1     7.9875
-Daredevil-8B                        1     7.8875
-Daredevil-8B-abliterated            1     7.8375
-Chocolatine-3B-Instruct-DPO-v1.0    1     7.6875
-NeuralDaredevil-8B-abliterated      1     7.6250
-Phi-3-mini-4k-instruct              1     7.2125
-Meta-Llama-3-8B-Instruct            1     7.1625
-vigostral-7b-chat                   1     6.7875
-Mistral-7B-Instruct-v0.3            1     6.7500
-Mistral-7B-Instruct-v0.2            1     6.2875
-French-Alpaca-7B-Instruct_beta      1     5.6875
-vigogne-2-7b-chat                   1     5.6625
-vigogne-2-7b-instruct               1     5.1375
 ########## Second turn ##########
-                                             score
-model                               turn
-Chocolatine-3B-Instruct-DPO-Revised 2     7.937500
-gpt-3.5-turbo                       2     7.679167
-Chocolatine-3B-Instruct-DPO-v1.0    2     7.612500
-NeuralDaredevil-8B-abliterated      2     7.125000
-Daredevil-8B                        2     7.087500
-Daredevil-8B-abliterated            2     6.873418
-Meta-Llama-3-8B-Instruct            2     6.800000
-Mistral-7B-Instruct-v0.2            2     6.512500
-Mistral-7B-Instruct-v0.3            2     6.500000
-Phi-3-mini-4k-instruct              2     6.487500
-vigostral-7b-chat                   2     6.162500
-French-Alpaca-7B-Instruct_beta      2     5.487395
-vigogne-2-7b-chat                   2     2.775000
-vigogne-2-7b-instruct               2     2.240506
 ########## Average ##########
-                                        score
-model
-Chocolatine-3B-Instruct-DPO-Revised  7.962500
-gpt-3.5-turbo                        7.908333
-Chocolatine-3B-Instruct-DPO-v1.0     7.650000
-Daredevil-8B                         7.487500
-NeuralDaredevil-8B-abliterated       7.375000
-Daredevil-8B-abliterated             7.358491
-Meta-Llama-3-8B-Instruct             6.981250
-Phi-3-mini-4k-instruct               6.850000
-Mistral-7B-Instruct-v0.3             6.625000
-vigostral-7b-chat                    6.475000
-Mistral-7B-Instruct-v0.2             6.400000
-French-Alpaca-7B-Instruct_beta       5.587866
-vigogne-2-7b-chat                    4.218750
-vigogne-2-7b-instruct                3.698113
 ```
 ### Usage

 ### MT-Bench-French
+Chocolatine-3B-Instruct-DPO-Revised is outperforming GPT-3.5-Turbo on [MT-Bench-French](https://huggingface.co/datasets/bofenghuang/mt-bench-french),
 used with [multilingual-mt-bench](https://github.com/Peter-Devine/multilingual_mt_bench)
+Notably, this latest version of the Chocolatine-3B model is approaching the performance of Phi-3-Medium (14B) in French, which is a remarkable achievement.
 ```
 ########## First turn ##########
+                                                      score
+model                                         turn
+gpt-4o-mini                                   1     9.28750
+Chocolatine-14B-Instruct-4k-DPO               1     8.63750
+Chocolatine-14B-Instruct-DPO-v1.2             1     8.61250
+Phi-3-medium-4k-instruct                      1     8.22500
+gpt-3.5-turbo                                 1     8.13750
+Chocolatine-3B-Instruct-DPO-Revised           1     7.98750
+Daredevil-8B                                  1     7.88750
+Daredevil-8B-abliterated                      1     7.83750
+Chocolatine-3B-Instruct-DPO-v1.0              1     7.68750
+NeuralDaredevil-8B-abliterated                1     7.62500
+Phi-3-mini-4k-instruct                        1     7.21250
+Meta-Llama-3-8B-Instruct                      1     7.16250
+Meta-Llama-3.1-8B-Instruct                    1     7.05000
+vigostral-7b-chat                             1     6.78750
+Mistral-7B-Instruct-v0.3                      1     6.75000
+gemma-2-2b-it                                 1     6.45000
+Mistral-7B-Instruct-v0.2                      1     6.28750
+French-Alpaca-7B-Instruct_beta                1     5.68750
+vigogne-2-7b-chat                             1     5.66250
+vigogne-2-7b-instruct                         1     5.13750
 ########## Second turn ##########
+                                                       score
+model                                         turn
+gpt-4o-mini                                   2     8.912500
+Chocolatine-14B-Instruct-DPO-v1.2             2     8.337500
+Chocolatine-3B-Instruct-DPO-Revised           2     7.937500
+Phi-3-medium-4k-instruct                      2     7.750000
+Chocolatine-14B-Instruct-4k-DPO               2     7.737500
+gpt-3.5-turbo                                 2     7.679167
+Chocolatine-3B-Instruct-DPO-v1.0              2     7.612500
+NeuralDaredevil-8B-abliterated                2     7.125000
+Daredevil-8B                                  2     7.087500
+Daredevil-8B-abliterated                      2     6.873418
+Meta-Llama-3-8B-Instruct                      2     6.800000
+Meta-Llama-3.1-8B-Instruct                    2     6.787500
+Mistral-7B-Instruct-v0.2                      2     6.512500
+Mistral-7B-Instruct-v0.3                      2     6.500000
+Phi-3-mini-4k-instruct                        2     6.487500
+vigostral-7b-chat                             2     6.162500
+gemma-2-2b-it                                 2     6.100000
+French-Alpaca-7B-Instruct_beta                2     5.487395
+vigogne-2-7b-chat                             2     2.775000
+vigogne-2-7b-instruct                         2     2.240506
 ########## Average ##########
+                                                  score
+model
+gpt-4o-mini                                    9.100000
+Chocolatine-14B-Instruct-DPO-v1.2              8.475000
+Chocolatine-14B-Instruct-4k-DPO                8.187500
+Phi-3-medium-4k-instruct                       7.987500
+Chocolatine-3B-Instruct-DPO-Revised            7.962500
+gpt-3.5-turbo                                  7.908333
+Chocolatine-3B-Instruct-DPO-v1.0               7.650000
+Daredevil-8B                                   7.487500
+NeuralDaredevil-8B-abliterated                 7.375000
+Daredevil-8B-abliterated                       7.358491
+Meta-Llama-3-8B-Instruct                       6.981250
+Meta-Llama-3.1-8B-Instruct                     6.918750
+Phi-3-mini-4k-instruct                         6.850000
+Mistral-7B-Instruct-v0.3                       6.625000
+vigostral-7b-chat                              6.475000
+Mistral-7B-Instruct-v0.2                       6.400000
+gemma-2-2b-it                                  6.275000
+French-Alpaca-7B-Instruct_beta                 5.587866
+vigogne-2-7b-chat                              4.218750
+vigogne-2-7b-instruct                          3.698113
 ```
 ### Usage