Demo-Llama-Guard-3-1B

Sleeping

schroneko commited on Jul 23

Commit

142b81d

•

1 Parent(s): 46358a2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,7 +14,8 @@ dtype = torch.bfloat16
 quantization_config = BitsAndBytesConfig(load_in_8bit=True)
-def load_model():
     tokenizer = AutoTokenizer.from_pretrained(model_id, token=huggingface_token)
     model = AutoModelForCausalLM.from_pretrained(
         model_id,
@@ -24,12 +25,7 @@ def load_model():
         token=huggingface_token,
         low_cpu_mem_usage=True
     )
-    return tokenizer, model
-tokenizer, model = load_model()
-@spaces.GPU
-def moderate(user_input, assistant_response):
     chat = [
         {"role": "user", "content": user_input},
         {"role": "assistant", "content": assistant_response},

 quantization_config = BitsAndBytesConfig(load_in_8bit=True)
+@spaces.GPU
+def moderate(user_input, assistant_response):
     tokenizer = AutoTokenizer.from_pretrained(model_id, token=huggingface_token)
     model = AutoModelForCausalLM.from_pretrained(
         model_id,
         token=huggingface_token,
         low_cpu_mem_usage=True
     )
     chat = [
         {"role": "user", "content": user_input},
         {"role": "assistant", "content": assistant_response},