File size: 6,612 Bytes
491af92 e2b4991 931524f f9a37ef 931524f a71293b 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f a71293b 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef 931524f f9a37ef |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 |
---
license: apache-2.0
language:
- fr
model-index:
- name: legml-v0.1
results:
- task:
type: text-generation
name: Text Generation
dataset:
name: gpqa-fr
type: ai2_arc
config: le-leadboard/gpqa-fr
split: test
args:
num_few_shot: 25
metrics:
- type: acc
value: 16.49
name: accuracy
- task:
type: text-generation
name: Text Generation
dataset:
name: IFEval-fr
type: le-leadboard/IFEval-fr
split: validation
args:
num_few_shot: 10
metrics:
- type: acc
value: 14.68
name: accuracy
- task:
type: text-generation
name: Text Generation
dataset:
name: MMMLU-fr
type: le-leadboard/MMMLU-fr
config: all
split: test
args:
num_few_shot: 5
metrics:
- type: acc
value: 68.31
name: accuracy
- task:
type: text-generation
name: Text Generation
dataset:
name: bbh-fr
type: le-leadboard/bbh-fr
config: multiple_choice
split: validation
args:
num_few_shot: 0
metrics:
- type: acc
name: accuracy
value: 37.17
- task:
type: text-generation
name: Text Generation
dataset:
name: musr-fr
type: le-leadboard/musr-fr
config: le-leadboard/musr-fr
split: validation
args:
num_few_shot: 5
metrics:
- type: acc
value: 9.93
name: accuracy
- task:
type: text-generation
name: Text Generation
dataset:
name: MATH_LVL5_fr
type: le-leadboard/MATH_LVL5_fr
config: le-leadboard/MATH_LVL5_fr
split: test
args:
num_few_shot: 5
metrics:
- type: acc
value: 22.27
name: accuracy
---
<img src="https://path.to/your/legml-image.png" alt="LegML-v0.1" width="500"/>
# legml-v0.1
legml-v0.1 est un grand modèle de langage (LLM) en français, capable de gérer une multitude de tâches telles que la programmation, les mathématiques, et bien d'autres domaines. Ce modèle est une version étendue d'un LLM basé sur Qwen, optimisé spécifiquement pour le français. Il a été entraîné sur un vaste corpus de données françaises nettoyées et annotées avec soin pour exécuter des instructions en français avec précision et cohérence.
L'entraînement intensif a été réalisé sur 4 GPU A100 pendant une durée de deux jours, utilisant cet ensemble de données spécialisé pour améliorer ses performances globales.
## Détails du Modèle
- **Modèle de Base** : Qwen-2.5 LLM avec 14 milliards de paramètres
- **Données d'Entraînement** : Corpus français annoté et nettoyé
- **Méthode d'Entraînement** : Affinage complet approfondi
## Exemples d'Utilisation
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # Appareil sur lequel charger le modèle
model_name = "legmlai/legml-v0.1"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Expliquez les principes fondamentaux de la théorie de la relativité restreinte."
messages = [
{
"role": "system",
"content": "Vous êtes un assistant virtuel compétent, prêt à fournir des réponses claires et détaillées aux questions posées."
},
{
"role": "user",
"content": prompt
}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(
model_inputs.input_ids,
temperature=0.5,
top_k=40,
top_p=0.8,
max_new_tokens=512,
repetition_penalty=1.05,
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
```
## Exemples de Générations
### Exemple 1
**Question :**
```
Expliquez les principes fondamentaux de la théorie de la relativité restreinte.
```
**Réponse :**
La théorie de la relativité restreinte, proposée par Albert Einstein en 1905, repose sur deux principes fondamentaux :
1. **Principe de Relativité** : Les lois de la physique sont les mêmes dans tous les référentiels inertiels, c'est-à-dire pour tous les observateurs en mouvement rectiligne uniforme les uns par rapport aux autres.
2. **Invariance de la Vitesse de la Lumière** : La vitesse de la lumière dans le vide est constante et indépendante du mouvement de la source ou de l'observateur, soit approximativement \( c = 299\,792\,458 \) mètres par seconde.
Ces principes entraînent des conséquences majeures, telles que la dilatation du temps, la contraction des longueurs et l'équivalence masse-énergie exprimée par la célèbre formule \( E = mc^2 \).
### Exemple 2
**Question :**
```
Comment installer une bibliothèque externe en Python, par exemple NumPy ?
```
**Réponse :**
Pour installer une bibliothèque externe en Python comme NumPy, vous pouvez utiliser le gestionnaire de packages \`pip\`. Voici comment faire :
1. **Ouvrez le terminal ou l'invite de commande** de votre système.
2. **Exécutez la commande suivante** :
```bash
pip install numpy
```
3. **Vérifiez l'installation** en important la bibliothèque dans un script Python :
```python
import numpy as np
print(np.__version__)
```
Cette commande installera NumPy sur votre système, et vous pourrez l'utiliser dans vos scripts pour des calculs scientifiques et mathématiques.
## Résultats de l'Évaluation
Les performances de LegML-v0.1 ont été évaluées sur divers benchmarks en français. Voici les résultats obtenus :
| Benchmark | Métrique | Valeur (%) |
|--------------------|------------------------|-----------:|
| **BBH-fr** | Précision normalisée | 37.17% |
| **GPQA-fr** | Précision normalisée | 16.49% |
| **IFEval-fr** | Précision stricte | 14.68% |
| **MUSR-fr** | Précision normalisée | 9.93% |
| **MATH-lvl5-fr** | Correspondance exacte | 22.27% |
| **MMMLU-fr** | Précision | 68.31% |
| **Moyenne** | | 28.81% |
Ces résultats démontrent les capacités du modèle sur une gamme variée de tâches complexes en français, tout en indiquant les domaines où des améliorations peuvent être apportées.
|