BSC-LT
/

salamandra-7b-instruct

@@ -925,22 +925,153 @@ Here, we present results for seven categories of tasks in Spanish, Catalan, Basq
 Further details on all tasks and criteria, a full list of results compared to other baselines, a discussion of the model's performance across tasks and its implications, and details regarding problem-solving with task implementation will soon be available in the technical report.
-| **Category** | **Dataset** | **Metric** | **es** | **ca** | **gl** | **eu** | **en** |
-|---------|---------|-----------|-------|-------|-------|-------|-------|
-| **Commonsense Reasoning** | **XStoryCloze** | Ending Coherence (1 to 5) | 3.24/0.63 | 3.12/0.51 | 2.87/0.59 | 2.16/0.52 | 3.71/0.50 |
-| **Paraphrasing** | **PAWS** | Paraphrase Completeness (0/1) | 0.86/0.07 | 0.82/0.09 | 0.78/0.10 | ----/---- | 0.92/0.05 |
-|         |         | Paraphrase Generation (1 to 5) | 3.81/0.54 | 3.67/0.55 | 3.56/0.57 | ----/---- | 3.98/0.37 |
-|         |         | Paraphrase Grammatical Correctness (0/1) | 0.93/0.03 | 0.92/0.05 | 0.89/0.06 | ----/---- | 0.96/0.03 |
-| **Reading Comprehension** | **Belebele** | Passage Comprehension (1 to 5) | 3.43/0.43 | 3.28/0.50 | 3.02/0.56 | 2.61/0.43 | 3.43/0.58 |
-|         |         | Answer Relevance (0/1) | 0.86/0.05 | 0.84/0.05 | 0.75/0.08 | 0.65/0.11 | 0.83/0.06 |
-| **Extreme Summarization** | **XLSum & caBreu & summarization_gl** | Extreme Summarization Informativeness (1 to 5) | 3.37/0.34 | 3.57/0.31 | 3.40/0.31 | ----/---- | 3.32/0.26 |
-|         |         | Extreme Summarization Conciseness (1 to 5) | 3.06/0.34 | 2.88/0.50 | 3.09/0.38 | ----/---- | 3.32/0.22 |
-| **Mathematics** | **mgsm** | Reasoning Capability (1 to 5) | 3.29/0.72 | 3.16/0.65 | 3.33/0.60 | 2.56/0.52 | 3.35/0.65 |
-|         |         | Mathematical Correctness (0/1) | 0.68/0.12 | 0.65/0.13 | 0.73/0.11 | 0.59/0.13 | 0.67/0.12 |
-| **Translation form Language** | **FLoRes** | Translation Fluency (1 to 5) | 3.95/0.11 | 3.88/0.15 | ----/---- | ----/---- | 3.92/0.14 |
-|         |         | Translation Accuracy (1 to 5) | 4.22/0.15 | 4.25/0.21 | ----/---- | ----/---- | 4.25/0.23 |
-| **Translation to Language** | **FLoRes** | Translation Fluency (1 to 5) | 3.92/0.11 | 3.84/0.14 | ----/---- | ----/---- | 4.19/0.14 |
-|         |         | Translation Accuracy (1 to 5) | 4.31/0.16 | 4.18/0.20 | ----/---- | ----/---- | 4.63/0.15 |
 ---

 Further details on all tasks and criteria, a full list of results compared to other baselines, a discussion of the model's performance across tasks and its implications, and details regarding problem-solving with task implementation will soon be available in the technical report.
+<style type="text/css">
+.tg  {border-collapse:collapse;border-spacing:0;}
+.tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
+  overflow:hidden;padding:10px 5px;word-break:normal;}
+.tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
+  font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;}
+.tg .tg-0pky{border-color:inherit;text-align:left;vertical-align:top}
+</style>
+<table class="tg"><thead>
+  <tr>
+    <th class="tg-0pky"><span style="font-weight:bold">Category</span></th>
+    <th class="tg-0pky"><span style="font-weight:bold">Dataset</span></th>
+    <th class="tg-0pky"><span style="font-weight:bold">Criteria</span></th>
+    <th class="tg-0pky"><span style="font-weight:bold">es</span></th>
+    <th class="tg-0pky"><span style="font-weight:bold">ca</span></th>
+    <th class="tg-0pky"><span style="font-weight:bold">gl</span></th>
+    <th class="tg-0pky"><span style="font-weight:bold">eu</span></th>
+    <th class="tg-0pky"><span style="font-weight:bold">en</span></th>
+  </tr></thead>
+<tbody>
+  <tr>
+    <td class="tg-0pky">Commonsense Reasoning</td>
+    <td class="tg-0pky">XStoryCloze</td>
+    <td class="tg-0pky">Ending coherence</td>
+    <td class="tg-0pky">3.24/0.63</td>
+    <td class="tg-0pky">3.12/0.51</td>
+    <td class="tg-0pky">2.87/0.59</td>
+    <td class="tg-0pky">2.16/0.52</td>
+    <td class="tg-0pky">3.71/0.50</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky" rowspan="3">Paraphrasing</td>
+    <td class="tg-0pky" rowspan="3">PAWS</td>
+    <td class="tg-0pky">Completeness `(B)`</td>
+    <td class="tg-0pky">0.86/0.07</td>
+    <td class="tg-0pky">0.82/0.09</td>
+    <td class="tg-0pky">0.78/0.10</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">0.92/0.05</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky">Paraphrase generation</td>
+    <td class="tg-0pky">3.81/0.54</td>
+    <td class="tg-0pky">3.67/0.55</td>
+    <td class="tg-0pky">3.56/0.57</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">3.98/0.37</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky">Grammatical correctness `(B)`</td>
+    <td class="tg-0pky">0.93/0.03</td>
+    <td class="tg-0pky">0.92/0.05</td>
+    <td class="tg-0pky">0.89/0.06</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">0.96/0.03</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky" rowspan="2">Reading Comprehension</td>
+    <td class="tg-0pky" rowspan="2">Belebele</td>
+    <td class="tg-0pky">Passage comprehension</td>
+    <td class="tg-0pky">3.43/0.43</td>
+    <td class="tg-0pky">3.28/0.50</td>
+    <td class="tg-0pky">3.02/0.56</td>
+    <td class="tg-0pky">2.61/0.43</td>
+    <td class="tg-0pky">3.43/0.58</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky">Answer relevance `(B)`</td>
+    <td class="tg-0pky">0.86/0.05</td>
+    <td class="tg-0pky">0.84/0.05</td>
+    <td class="tg-0pky">0.75/0.08</td>
+    <td class="tg-0pky">0.65/0.11</td>
+    <td class="tg-0pky">0.83/0.06</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky" rowspan="2">Extreme Summarization</td>
+    <td class="tg-0pky" rowspan="2">XLSum &amp; caBreu &amp; summarization_gl</td>
+    <td class="tg-0pky">Informativeness</td>
+    <td class="tg-0pky">3.37/0.34</td>
+    <td class="tg-0pky">3.57/0.31</td>
+    <td class="tg-0pky">3.40/0.31</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">3.32/0.26</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky">Conciseness</td>
+    <td class="tg-0pky">3.06/0.34</td>
+    <td class="tg-0pky">2.88/0.50</td>
+    <td class="tg-0pky">3.09/0.38</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">3.32/0.22</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky" rowspan="2">Math</td>
+    <td class="tg-0pky" rowspan="2">MGSM</td>
+    <td class="tg-0pky">Reasoning capability</td>
+    <td class="tg-0pky">3.29/0.72</td>
+    <td class="tg-0pky">3.16/0.65</td>
+    <td class="tg-0pky">3.33/0.60</td>
+    <td class="tg-0pky">2.56/0.52</td>
+    <td class="tg-0pky">3.35/0.65</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky">Mathematical correctness `(B)`</td>
+    <td class="tg-0pky">0.68/0.12</td>
+    <td class="tg-0pky">0.65/0.13</td>
+    <td class="tg-0pky">0.73/0.11</td>
+    <td class="tg-0pky">0.59/0.13</td>
+    <td class="tg-0pky">0.67/0.12</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky" rowspan="2">Translation form Language</td>
+    <td class="tg-0pky" rowspan="2">FLORES-200</td>
+    <td class="tg-0pky">Fluency</td>
+    <td class="tg-0pky">3.95/0.11</td>
+    <td class="tg-0pky">3.88/0.15</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">3.92/0.14</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky">Accuracy</td>
+    <td class="tg-0pky">4.22/0.15</td>
+    <td class="tg-0pky">4.25/0.21</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">4.25/0.23</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky" rowspan="2">Translation to Language</td>
+    <td class="tg-0pky" rowspan="2">FLORES-200</td>
+    <td class="tg-0pky">Fluency</td>
+    <td class="tg-0pky">3.92/0.11</td>
+    <td class="tg-0pky">3.84/0.14</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">4.19/0.14</td>
+  </tr>
+  <tr>
+    <td class="tg-0pky">Accuracy</td>
+    <td class="tg-0pky">4.31/0.16</td>
+    <td class="tg-0pky">4.18/0.20</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">-- / --</td>
+    <td class="tg-0pky">4.63/0.15</td>
+  </tr>
+</tbody></table>
 ---