Spaces:

ariG23498
/

rag-pis

Paused

App Files Files Community

ariG23498 HF Staff commited on Jun 1, 2024

Commit

33a95fe

1 Parent(s): 33ffdb4

fix

Browse files

Files changed (1) hide show

app.py +8 -12

app.py CHANGED Viewed

@@ -5,36 +5,32 @@ from datasets import load_dataset
 from sentence_transformers import SentenceTransformer
 from transformers import AutoTokenizer, AutoModelForCausalLM
 @spaces.GPU
 def process_query(query):
-    dataset = load_dataset("ariG23498/pis-blogs-chunked")
-    embedding_model = SentenceTransformer(model_name_or_path="all-mpnet-base-v2", device="cuda:0")
     text_embeddings = embedding_model.encode(dataset["train"]["text"])
-    tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b-it")
-    model = AutoModelForCausalLM.from_pretrained("google/gemma-2b-it", torch_dtype=torch.bfloat16, device_map="auto")
-    print(f"Query: {query}")
     query_embedding = embedding_model.encode(query)
     similarity_scores = embedding_model.similarity(query_embedding, text_embeddings)
     top_indices = (-similarity_scores).argsort()[0][:5]
     context = dataset["train"]["text"][top_indices[0]]
     url = dataset["train"]["url"][top_indices[0]]
-    print(f"Searching URL: {url}")
-    print(f"Found context: {context}")
     input_text = (
         f"Based on the context provided, '{context}', how would"
         f"you address the user's query regarding '{query}'? Please"
         " provide a detailed and contextually relevant response."
     )
-    input_ids = tokenizer(input_text, return_tensors="pt").to("cuda:0")
     len_text = len(input_text)
     with torch.inference_mode():
         generated_outputs = model.generate(**input_ids, max_new_tokens=1000, do_sample=False)
         generated_outputs = tokenizer.batch_decode(generated_outputs, skip_special_tokens=True)

 from sentence_transformers import SentenceTransformer
 from transformers import AutoTokenizer, AutoModelForCausalLM
+dataset = load_dataset("ariG23498/pis-blogs-chunked")
+embedding_model = SentenceTransformer(model_name_or_path="all-mpnet-base-v2")
+tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b-it")
+model = AutoModelForCausalLM.from_pretrained("google/gemma-2b-it", torch_dtype=torch.bfloat16)
 @spaces.GPU
 def process_query(query):
+    embedding_model = embedding_model.to("cuda")
     text_embeddings = embedding_model.encode(dataset["train"]["text"])
     query_embedding = embedding_model.encode(query)
     similarity_scores = embedding_model.similarity(query_embedding, text_embeddings)
     top_indices = (-similarity_scores).argsort()[0][:5]
     context = dataset["train"]["text"][top_indices[0]]
     url = dataset["train"]["url"][top_indices[0]]
     input_text = (
         f"Based on the context provided, '{context}', how would"
         f"you address the user's query regarding '{query}'? Please"
         " provide a detailed and contextually relevant response."
     )
+    input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
     len_text = len(input_text)
+    model = model.to("cuda")
     with torch.inference_mode():
         generated_outputs = model.generate(**input_ids, max_new_tokens=1000, do_sample=False)
         generated_outputs = tokenizer.batch_decode(generated_outputs, skip_special_tokens=True)