locorene1000 commited on
Commit
22c26c5
1 Parent(s): ef680a8
Files changed (1) hide show
  1. app.py +8 -12
app.py CHANGED
@@ -3,10 +3,6 @@ from transformers import pipeline
3
  import torch
4
  import spaces
5
  import time
6
- import subprocess
7
-
8
- # Aseg煤rate de que accelerate est茅 actualizado
9
- subprocess.run(["pip", "install", "--upgrade", "accelerate"])
10
 
11
  # Funci贸n para verificar y esperar una GPU
12
  def wait_for_gpu():
@@ -18,14 +14,14 @@ def wait_for_gpu():
18
  # Espera hasta que una GPU est茅 disponible
19
  wait_for_gpu()
20
 
21
- # Aseg煤rate de que fbgemm-gpu est茅 instalado y se pueda utilizar
22
- try:
23
- import fbgemm_gpu
24
- except ImportError:
25
- raise ImportError("Necesitas instalar fbgemm-gpu para usar cuantizaci贸n FP8 con este modelo. Por favor, sigue las instrucciones en https://pytorch.org/FBGEMM/fbgemm_gpu-development/InstallationInstructions.html#fbgemm-gpu-install-libraries")
26
-
27
- # Configuraci贸n del pipeline con el modelo Meta-Llama usando GPU
28
- pipe = pipeline("text-generation", model="meta-llama/Meta-Llama-3.1-405B-Instruct-FP8", device=0)
29
 
30
  # Instrucciones para mejorar resoluciones judiciales
31
  instructions = """
 
3
  import torch
4
  import spaces
5
  import time
 
 
 
 
6
 
7
  # Funci贸n para verificar y esperar una GPU
8
  def wait_for_gpu():
 
14
  # Espera hasta que una GPU est茅 disponible
15
  wait_for_gpu()
16
 
17
+ # Configuraci贸n del pipeline con el modelo Meta-Llama usando GPU y FP16
18
+ pipe = pipeline(
19
+ "text-generation",
20
+ model="meta-llama/Meta-Llama-3.1-70B-Instruct",
21
+ device=0,
22
+ torch_dtype=torch.float16,
23
+ low_cpu_mem_usage=True # Para reducir el uso de memoria en CPU
24
+ )
25
 
26
  # Instrucciones para mejorar resoluciones judiciales
27
  instructions = """