Service-text

Runtime error

App Files Files Community

Uhhy commited on Sep 15, 2024

Commit

c2c6b95

verified ·

1 Parent(s): fe63409

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -16

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ from concurrent.futures import ThreadPoolExecutor, as_completed
 from tqdm import tqdm
 import uvicorn
 from dotenv import load_dotenv
-from difflib import SequenceMatcher
 import re
 import spaces
@@ -44,30 +43,27 @@ class ModelManager:
         self.models = []
         self.loaded = False
     def load_model(self, model_config):
-        print(f"Cargando modelo: {model_config['name']}...")
         return {"model": Llama.from_pretrained(repo_id=model_config['repo_id'], filename=model_config['filename']), "name": model_config['name']}
     def load_all_models(self):
         if self.loaded:
-            print("Modelos ya están cargados. No es necesario volver a cargarlos.")
             return self.models
-        print("Iniciando carga de modelos...")
         with ThreadPoolExecutor() as executor:
             futures = [executor.submit(self.load_model, config) for config in model_configs]
             models = []
-            for future in tqdm(as_completed(futures), total=len(model_configs), desc="Cargando modelos", unit="modelo"):
                 try:
                     model = future.result()
                     models.append(model)
-                    print(f"Modelo cargado exitosamente: {model['name']}")
                 except Exception as e:
-                    print(f"Error al cargar el modelo: {e}")
         self.models = models
         self.loaded = True
-        print("Todos los modelos han sido cargados.")
         return self.models
 model_manager = ModelManager()
@@ -118,7 +114,6 @@ def remove_repetitive_responses(responses):
     return unique_responses
 def select_best_response(responses):
-    print("Filtrando respuestas...")
     responses = remove_repetitive_responses(responses)
     responses = [remove_duplicates(response['response']) for response in responses]
     unique_responses = list(dict.fromkeys(responses))
@@ -130,26 +125,22 @@ async def generate_chat(request: ChatRequest):
     if not request.message.strip():
         raise HTTPException(status_code=400, detail="The message cannot be empty.")
-    print(f"Procesando solicitud: {request.message}")
     responses = []
     num_models = len(global_data['models'])
     with ThreadPoolExecutor() as executor:
         futures = [executor.submit(generate_chat_response, request, model_data) for model_data in global_data['models']]
-        for future in tqdm(as_completed(futures), total=num_models, desc="Generando respuestas", unit="modelo"):
             try:
                 response = future.result()
                 responses.append(response)
             except Exception as exc:
-                print(f"Error en la generación de respuesta: {exc}")
     if not responses:
         raise HTTPException(status_code=500, detail="Error: No se generaron respuestas.")
     best_response = select_best_response(responses)
-    print(f"Mejor respuesta seleccionada: {best_response}")
     return {
         "best_response": best_response,
@@ -157,4 +148,4 @@ async def generate_chat(request: ChatRequest):
     }
 if __name__ == "__main__":
-    uvicorn.run(app, host="0.0.0.0", port=7860)

 from tqdm import tqdm
 import uvicorn
 from dotenv import load_dotenv
 import re
 import spaces
         self.models = []
         self.loaded = False
+    @spaces.GPU(duration=0)
     def load_model(self, model_config):
         return {"model": Llama.from_pretrained(repo_id=model_config['repo_id'], filename=model_config['filename']), "name": model_config['name']}
+    @spaces.GPU(duration=0)
     def load_all_models(self):
         if self.loaded:
             return self.models
         with ThreadPoolExecutor() as executor:
             futures = [executor.submit(self.load_model, config) for config in model_configs]
             models = []
+            for future in as_completed(futures):
                 try:
                     model = future.result()
                     models.append(model)
                 except Exception as e:
+                    pass
         self.models = models
         self.loaded = True
         return self.models
 model_manager = ModelManager()
     return unique_responses
 def select_best_response(responses):
     responses = remove_repetitive_responses(responses)
     responses = [remove_duplicates(response['response']) for response in responses]
     unique_responses = list(dict.fromkeys(responses))
     if not request.message.strip():
         raise HTTPException(status_code=400, detail="The message cannot be empty.")
     responses = []
     num_models = len(global_data['models'])
     with ThreadPoolExecutor() as executor:
         futures = [executor.submit(generate_chat_response, request, model_data) for model_data in global_data['models']]
+        for future in tqdm(as_completed(futures), total=num_models):
             try:
                 response = future.result()
                 responses.append(response)
             except Exception as exc:
+                pass
     if not responses:
         raise HTTPException(status_code=500, detail="Error: No se generaron respuestas.")
     best_response = select_best_response(responses)
     return {
         "best_response": best_response,
     }
 if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=8000)