Spaces:

CONCREE
/

Adia_TTS

Running

App Files Files Community

Hawoly18 commited on 4 days ago

Commit

f022fe4

verified ·

1 Parent(s): 3590f25

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -41

app.py CHANGED Viewed

@@ -5,70 +5,81 @@ from parler_tts import ParlerTTSForConditionalGeneration
 from transformers import AutoTokenizer
 import gradio as gr
 import re
-# Text preprocessing tools
 class EnglishNumberNormalizer:
     def __call__(self, text):
-        # Placeholder for number normalization logic
         return text
 number_normalizer = EnglishNumberNormalizer()
 def preprocess(text):
     text = number_normalizer(text).strip()
-    text = text.replace("-", " ")
-    if text[-1] not in ".!?":
-        text = f"{text}."
-    abbreviations_pattern = r'\b[A-Z][A-Z\.]+\b'
-    def separate_abb(chunk):
-        chunk = chunk.replace(".", "")
-        return " ".join(chunk)
     abbreviations = re.findall(abbreviations_pattern, text)
     for abv in abbreviations:
-        if abv in text:
-            text = text.replace(abv, separate_abb(abv))
     return text
-# Vérification de la disponibilité de CUDA
-device = "cuda:0" if torch.cuda.is_available() else "cpu"
-# Chargement du modèle et du tokenizer
-try:
-    model = ParlerTTSForConditionalGeneration.from_pretrained("CONCREE/Adia_TTS", torch_dtype=torch.float16).to(device)
-    tokenizer = AutoTokenizer.from_pretrained("CONCREE/Adia_TTS")
-except Exception as e:
-    raise RuntimeError(f"Erreur lors du chargement du modèle : {e}")
 # Texte et description par défaut
-default_prompt = "Politigu Senegaal, doxalinu demokraasi bu dëgër la, am wote yuy faral di am, te askan wi di ci bokk bu baax"
 default_description = """A crystal clear and distinct voice, with a moderate reading rate that facilitates understanding. The tone is monotonous, without variations or inflections, which provides a uniform listening experience. The voice is free of background noise and allows for continuous reading, without inappropriate pauses, thus ensuring a constant and pleasant flow."""
 # Fonction pour générer l'audio sans segmentation
 def generate_audio(prompt, description):
-    try:
-        # Preprocess the input text
-        prompt = preprocess(prompt)
-        # Génération des IDs d'entrée
-        input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
-        prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
-        # Générer l'audio
-        generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
-        audio_arr = generation.cpu().numpy().squeeze()  # Transformer en tableau numpy
-        # Taux d'échantillonnage
-        sampling_rate = model.config.sampling_rate
-        # Normaliser l'audio
-        audio_arr = audio_arr / np.max(np.abs(audio_arr))
-        return sampling_rate, audio_arr
-    except Exception as e:
-        raise RuntimeError(f"Erreur lors de la génération de l'audio : {e}")
 # Fonction pour mettre à jour le compteur de caractères
 def update_char_counter(text):
@@ -79,7 +90,7 @@ def update_char_counter(text):
 def create_interface():
     with gr.Blocks() as demo:
         # Ajouter une image ou un logo
-        gr.Markdown("![Logo](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTvWeCFFOvSMDKQTMygMbBIBRn2-KyB4fEakQ&s)")
         # Titre et description
         gr.Markdown("# 🌟 Bienvenue sur Adia TTS 🌟")
@@ -104,7 +115,7 @@ def create_interface():
                     default_description,
                 ],
                 [
-                    """Entreprenariat ci Senegal dafa am solo lool ci yokkuteg koom-koom, di gëna yokk liggéey ak indi gis-gis yu bees ci dëkk bi. Ndaw yi am këru liggéey dañuy am xéewal yu amul fenn ndax ecosystem bi dafay màgg.""",
                     default_description,
                 ],
             ],

 from transformers import AutoTokenizer
 import gradio as gr
 import re
+from num2words import num2words
+# Vérification de la disponibilité de CUDA
+device = "cuda:0" if torch.cuda.is_available() else "cpu"
+# Chargement du modèle et du tokenizer
+try:
+    model = ParlerTTSForConditionalGeneration.from_pretrained("CONCREE/Adia_TTS", torch_dtype=torch.float16).to(device)
+    tokenizer = AutoTokenizer.from_pretrained("CONCREE/Adia_TTS")
+except Exception as e:
+    raise RuntimeError(f"Erreur lors du chargement du modèle : {e}")
+# Normalisation des nombres
 class EnglishNumberNormalizer:
     def __call__(self, text):
+        # Trouver tous les nombres dans le texte
+        numbers = re.findall(r'\d+', text)
+        for number in numbers:
+            # Convertir le nombre en mots
+            text = text.replace(number, num2words(int(number), lang='fr'))
         return text
 number_normalizer = EnglishNumberNormalizer()
+# Fonction de prétraitement
 def preprocess(text):
+    # Normaliser les nombres
     text = number_normalizer(text).strip()
+    # Remplacer les tirets par des espaces
+    text = text.replace("-", " ")
+    # Ajouter un point à la fin si le texte ne se termine pas par une ponctuation
+    if not text.endswith(('.', '!', '?')):
+        text += "."
+    # Traiter les abréviations
+    abbreviations_pattern = r'\b[A-Z][A-Z\.]+\b'
     abbreviations = re.findall(abbreviations_pattern, text)
     for abv in abbreviations:
+        # Séparer les lettres des abréviations (par exemple, "U.S.A." -> "U S A")
+        separated_abv = " ".join(abv.replace(".", ""))
+        text = text.replace(abv, separated_abv)
     return text
 # Texte et description par défaut
+default_prompt = "Abdoul nena souba dinagnou am reunion pour waxtaan li des"
 default_description = """A crystal clear and distinct voice, with a moderate reading rate that facilitates understanding. The tone is monotonous, without variations or inflections, which provides a uniform listening experience. The voice is free of background noise and allows for continuous reading, without inappropriate pauses, thus ensuring a constant and pleasant flow."""
 # Fonction pour générer l'audio sans segmentation
 def generate_audio(prompt, description):
+    # Prétraiter le texte
+    prompt = preprocess(prompt)
+    # Génération des IDs d'entrée
+    input_ids = tokenizer(description.strip(), return_tensors="pt").input_ids.to(device)
+    prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
+    # Générer l'audio
+    generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
+    audio_arr = generation.cpu().numpy().squeeze()  # Transformer en tableau numpy
+    # Taux d'échantillonnage
+    sampling_rate = model.config.sampling_rate
+    # Normaliser l'audio
+    audio_arr = audio_arr / np.max(np.abs(audio_arr))
+    return sampling_rate, audio_arr
 # Fonction pour mettre à jour le compteur de caractères
 def update_char_counter(text):
 def create_interface():
     with gr.Blocks() as demo:
         # Ajouter une image ou un logo
+        gr.Markdown("![Logo](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTvWeCFFOvSMDKQTMygMbBIBRn2-KyB4fEakQ&s)")  # Remplacez l'URL par le chemin de votre image
         # Titre et description
         gr.Markdown("# 🌟 Bienvenue sur Adia TTS 🌟")
                     default_description,
                 ],
                 [
+                    """Entreprenariat ci Senegal dafa am solo lool ci yokkuteg koom-koom, di gëna yokk liggéey ak indi gis-gis yu bees ci dëkk bi. Ndaw yi am këru liggéey dañuy am xéewal yu amul fenn ndax ecosystem bi dafay màgg, te inisiatiif yu réew mi ak yu prive yi ñoo leen di jàppale.""",
                     default_description,
                 ],
             ],