Spaces:

ariG23498
/

rag-pis

Paused

ariG23498 HF Staff commited on Jun 1, 2024

Commit

ee678e0

1 Parent(s): ccff069

chore: fixing secrets

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,18 +7,16 @@ from transformers import AutoTokenizer, AutoModelForCausalLM
 import os
 os.environ["HF_TOKEN"] = os.getenv("auth")
-@spaces.GPU
 def process_query(query):
-    dataset = load_dataset("ariG23498/pis-blogs-chunked")
-    embedding_model = SentenceTransformer(model_name_or_path="all-mpnet-base-v2")
-    tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b-it")
-    model = AutoModelForCausalLM.from_pretrained("google/gemma-2b-it", torch_dtype=torch.bfloat16)
-    embedding_model = embedding_model.to("cuda")
     text_embeddings = embedding_model.encode(dataset["train"]["text"])
     query_embedding = embedding_model.encode(query)
     similarity_scores = embedding_model.similarity(query_embedding, text_embeddings)
     top_indices = (-similarity_scores).argsort()[0][:5]
@@ -33,7 +31,6 @@ def process_query(query):
     input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
     len_text = len(input_text)
-    model = model.to("cuda")
     with torch.inference_mode():
         generated_outputs = model.generate(**input_ids, max_new_tokens=1000, do_sample=False)
         generated_outputs = tokenizer.batch_decode(generated_outputs, skip_special_tokens=True)

 import os
 os.environ["HF_TOKEN"] = os.getenv("auth")
+dataset = load_dataset("ariG23498/pis-blogs-chunked")
+embedding_model = SentenceTransformer(model_name_or_path="all-mpnet-base-v2", device="cuda")
+tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b-it")
+model = AutoModelForCausalLM.from_pretrained("google/gemma-2b-it", torch_dtype=torch.bfloat16, device_map="auto")
+@spaces.GPU(duration=500)
 def process_query(query):
     text_embeddings = embedding_model.encode(dataset["train"]["text"])
     query_embedding = embedding_model.encode(query)
     similarity_scores = embedding_model.similarity(query_embedding, text_embeddings)
     top_indices = (-similarity_scores).argsort()[0][:5]
     input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
     len_text = len(input_text)
     with torch.inference_mode():
         generated_outputs = model.generate(**input_ids, max_new_tokens=1000, do_sample=False)
         generated_outputs = tokenizer.batch_decode(generated_outputs, skip_special_tokens=True)