LLMnBiasV2

Paused

App Files Files Community

Woziii commited on Oct 19, 2024

Commit

2deee43

verified ·

1 Parent(s): cdbe4f9

Update app.py

Browse files

Files changed (1) hide show

app.py +69 -21

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ import matplotlib.pyplot as plt
 import seaborn as sns
 import numpy as np
 import time
 # Authentification
 login(token=os.environ["HF_TOKEN"])
@@ -28,6 +29,23 @@ models = [
     "croissantllm/CroissantLLMBase"
 ]
 # Variables globales
 model = None
 tokenizer = None
@@ -38,14 +56,33 @@ def load_model(model_name, progress=gr.Progress()):
         progress(0, desc="Chargement du tokenizer")
         tokenizer = AutoTokenizer.from_pretrained(model_name)
         progress(0.5, desc="Chargement du modèle")
-        model = AutoModelForCausalLM.from_pretrained(
-            model_name,
-            torch_dtype=torch.float32,
-            device_map="cpu",
-            attn_implementation="eager"
-        )
         if tokenizer.pad_token is None:
             tokenizer.pad_token = tokenizer.eos_token
         progress(1.0, desc="Modèle chargé")
         return f"Modèle {model_name} chargé avec succès."
     except Exception as e:
@@ -63,18 +100,24 @@ def analyze_next_token(input_text, temperature, top_p, top_k):
     if model is None or tokenizer is None:
         return "Veuillez d'abord charger un modèle.", None, None
-    inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True, max_length=512)
     try:
         with torch.no_grad():
             outputs = model(**inputs)
         last_token_logits = outputs.logits[0, -1, :]
-        probabilities = torch.nn.functional.softmax(last_token_logits, dim=-1)
-        top_k = 10
         top_probs, top_indices = torch.topk(probabilities, top_k)
         top_words = [ensure_token_display(tokenizer.decode([idx.item()])) for idx in top_indices]
         prob_data = {word: prob.item() for word, prob in zip(top_words, top_probs)}
         prob_text = "Prochains tokens les plus probables :\n\n"
@@ -94,17 +137,22 @@ def generate_text(input_text, temperature, top_p, top_k):
     if model is None or tokenizer is None:
         return "Veuillez d'abord charger un modèle."
-    inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True, max_length=512)
     try:
-        with torch.no_grad():
-            outputs = model.generate(
-                **inputs,
-                max_new_tokens=1,
-                temperature=temperature,
-                top_p=top_p,
-                top_k=top_k
-            )
         generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
         return generated_text
@@ -139,7 +187,7 @@ def plot_attention(input_ids, last_token_logits):
     top_attention_scores, _ = torch.topk(attention_scores, top_k)
     fig, ax = plt.subplots(figsize=(14, 7))
-    sns.heatmap(top_attention_scores.unsqueeze(0).numpy(), annot=True, cmap="YlOrRd", cbar=True, ax=ax, fmt='.2%')
     ax.set_xticklabels(input_tokens[-top_k:], rotation=45, ha="right", fontsize=10)
     ax.set_yticklabels(["Attention"], rotation=0, fontsize=10)
     ax.set_title("Scores d'attention pour les derniers tokens", fontsize=16)
@@ -158,7 +206,7 @@ def reset():
     return "", 1.0, 1.0, 50, None, None, None, None
 with gr.Blocks() as demo:
-    gr.Markdown("# Analyse et génération de texte")
     with gr.Accordion("Sélection du modèle"):
         model_dropdown = gr.Dropdown(choices=models, label="Choisissez un modèle")
@@ -179,7 +227,7 @@ with gr.Blocks() as demo:
         attention_plot = gr.Plot(label="Visualisation de l'attention")
         prob_plot = gr.Plot(label="Probabilités des tokens suivants")
-    generate_button = gr.Button("Générer le prochain mot")
     generated_text = gr.Textbox(label="Texte généré")
     reset_button = gr.Button("Réinitialiser")

 import seaborn as sns
 import numpy as np
 import time
+from langdetect import detect
 # Authentification
 login(token=os.environ["HF_TOKEN"])
     "croissantllm/CroissantLLMBase"
 ]
+# Dictionnaire des langues supportées par modèle
+model_languages = {
+    "meta-llama/Llama-2-13b-hf": ["en"],
+    "meta-llama/Llama-2-7b-hf": ["en"],
+    "meta-llama/Llama-2-70b-hf": ["en"],
+    "meta-llama/Meta-Llama-3-8B": ["en"],
+    "meta-llama/Llama-3.2-3B": ["en", "de", "fr", "it", "pt", "hi", "es", "th"],
+    "meta-llama/Llama-3.1-8B": ["en", "de", "fr", "it", "pt", "hi", "es", "th"],
+    "mistralai/Mistral-7B-v0.1": ["en"],
+    "mistralai/Mixtral-8x7B-v0.1": ["en", "fr", "it", "de", "es"],
+    "mistralai/Mistral-7B-v0.3": ["en"],
+    "google/gemma-2-2b": ["en"],
+    "google/gemma-2-9b": ["en"],
+    "google/gemma-2-27b": ["en"],
+    "croissantllm/CroissantLLMBase": ["en", "fr"]
+}
 # Variables globales
 model = None
 tokenizer = None
         progress(0, desc="Chargement du tokenizer")
         tokenizer = AutoTokenizer.from_pretrained(model_name)
         progress(0.5, desc="Chargement du modèle")
+        # Configurations spécifiques par modèle
+        if "mixtral" in model_name.lower():
+            model = AutoModelForCausalLM.from_pretrained(
+                model_name,
+                torch_dtype=torch.float16,
+                device_map="auto",
+                attn_implementation="flash_attention_2",
+                load_in_8bit=True
+            )
+        elif "llama" in model_name.lower() or "mistral" in model_name.lower():
+            model = AutoModelForCausalLM.from_pretrained(
+                model_name,
+                torch_dtype=torch.float16,
+                device_map="auto",
+                attn_implementation="flash_attention_2"
+            )
+        else:
+            model = AutoModelForCausalLM.from_pretrained(
+                model_name,
+                torch_dtype=torch.float16,
+                device_map="auto"
+            )
         if tokenizer.pad_token is None:
             tokenizer.pad_token = tokenizer.eos_token
         progress(1.0, desc="Modèle chargé")
         return f"Modèle {model_name} chargé avec succès."
     except Exception as e:
     if model is None or tokenizer is None:
         return "Veuillez d'abord charger un modèle.", None, None
+    # Détection de la langue
+    detected_lang = detect(input_text)
+    if detected_lang not in model_languages.get(model.config._name_or_path, []):
+        return f"Langue détectée ({detected_lang}) non supportée par ce modèle.", None, None
+    inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True, max_length=512).to(model.device)
     try:
         with torch.no_grad():
             outputs = model(**inputs)
         last_token_logits = outputs.logits[0, -1, :]
+        probabilities = torch.nn.functional.softmax(last_token_logits / temperature, dim=-1)
+        top_k = min(top_k, probabilities.size(-1))
         top_probs, top_indices = torch.topk(probabilities, top_k)
         top_words = [ensure_token_display(tokenizer.decode([idx.item()])) for idx in top_indices]
         prob_data = {word: prob.item() for word, prob in zip(top_words, top_probs)}
         prob_text = "Prochains tokens les plus probables :\n\n"
     if model is None or tokenizer is None:
         return "Veuillez d'abord charger un modèle."
+    # Détection de la langue
+    detected_lang = detect(input_text)
+    if detected_lang not in model_languages.get(model.config._name_or_path, []):
+        return f"Langue détectée ({detected_lang}) non supportée par ce modèle."
+    inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True, max_length=512).to(model.device)
     try:
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=50,
+            do_sample=True,
+            temperature=temperature,
+            top_p=top_p,
+            top_k=top_k
+        )
         generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
         return generated_text
     top_attention_scores, _ = torch.topk(attention_scores, top_k)
     fig, ax = plt.subplots(figsize=(14, 7))
+    sns.heatmap(top_attention_scores.unsqueeze(0).cpu().numpy(), annot=True, cmap="YlOrRd", cbar=True, ax=ax, fmt='.2%')
     ax.set_xticklabels(input_tokens[-top_k:], rotation=45, ha="right", fontsize=10)
     ax.set_yticklabels(["Attention"], rotation=0, fontsize=10)
     ax.set_title("Scores d'attention pour les derniers tokens", fontsize=16)
     return "", 1.0, 1.0, 50, None, None, None, None
 with gr.Blocks() as demo:
+    gr.Markdown("# Analyse et génération de texte avec LLM")
     with gr.Accordion("Sélection du modèle"):
         model_dropdown = gr.Dropdown(choices=models, label="Choisissez un modèle")
         attention_plot = gr.Plot(label="Visualisation de l'attention")
         prob_plot = gr.Plot(label="Probabilités des tokens suivants")
+    generate_button = gr.Button("Générer la suite du texte")
     generated_text = gr.Textbox(label="Texte généré")
     reset_button = gr.Button("Réinitialiser")