Spaces:

Roberta2024
/

Nvidia_RAG_pdf

Running

App Files Files Community

YU-XI commited on Aug 26, 2024

Commit

b6eba06

verified ·

1 Parent(s): 4def369

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -14

app.py CHANGED Viewed

@@ -7,6 +7,8 @@ import google.generativeai as genai
 from langchain.chains.question_answering import load_qa_chain
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
 # Configure Gemini API
 genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))
@@ -18,7 +20,19 @@ device = 'cuda' if torch.cuda.is_available() else 'cpu'
 dtype = torch.bfloat16
 mistral_model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)
-def initialize(file_path, question):
     try:
         model = ChatGoogleGenerativeAI(model="gemini-pro", temperature=0.3)
         prompt_template = """Answer the question as precise as possible using the provided context. If the answer is
@@ -29,12 +43,20 @@ def initialize(file_path, question):
                             """
         prompt = PromptTemplate(template=prompt_template, input_variables=["context", "question"])
-        if os.path.exists(file_path):
             pdf_loader = PyPDFLoader(file_path)
             pages = pdf_loader.load_and_split()
-            context = "\n".join(str(page.page_content) for page in pages[:30])
             stuff_chain = load_qa_chain(model, chain_type="stuff", prompt=prompt)
-            stuff_answer = stuff_chain({"input_documents": pages, "question": question, "context": context}, return_only_outputs=True)
             gemini_answer = stuff_answer['output_text']
             # Use Mistral model for additional text generation
@@ -47,25 +69,27 @@ def initialize(file_path, question):
             combined_output = f"Gemini Answer: {gemini_answer}\n\nMistral Follow-up: {mistral_output}"
             return combined_output
         else:
-            return "Error: Unable to process the document. Please ensure the PDF file is valid."
     except Exception as e:
         return f"An error occurred: {str(e)}"
 # Define Gradio Interface
 input_file = gr.File(label="Upload PDF File")
 input_question = gr.Textbox(label="Ask about the document")
 output_text = gr.Textbox(label="Answer - Combined Gemini and Mistral")
-def pdf_qa(file, question):
-    if file is None:
-        return "Please upload a PDF file first."
-    return initialize(file.name, question)
 # Create Gradio Interface
 gr.Interface(
-    fn=pdf_qa,
-    inputs=[input_file, input_question],
     outputs=output_text,
-    title="RAG Knowledge Retrieval using Gemini API and Mistral Model",
-    description="Upload a PDF file and ask questions about the content."
-).launch()

 from langchain.chains.question_answering import load_qa_chain
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
+from transformers import BlipProcessor, BlipForConditionalGeneration
+from PIL import Image
 # Configure Gemini API
 genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))
 dtype = torch.bfloat16
 mistral_model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)
+# Load BLIP model for image processing
+blip_processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
+blip_model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base").to(device)
+def process_image(image):
+    # Convert PIL Image to tensor
+    inputs = blip_processor(images=image, return_tensors="pt").to(device)
+    # Generate caption from image
+    caption_ids = blip_model.generate(**inputs)
+    caption = blip_processor.decode(caption_ids[0], skip_special_tokens=True)
+    return caption
+def initialize(file_path, image, question):
     try:
         model = ChatGoogleGenerativeAI(model="gemini-pro", temperature=0.3)
         prompt_template = """Answer the question as precise as possible using the provided context. If the answer is
                             """
         prompt = PromptTemplate(template=prompt_template, input_variables=["context", "question"])
+        context = ""
+        if file_path and os.path.exists(file_path):
             pdf_loader = PyPDFLoader(file_path)
             pages = pdf_loader.load_and_split()
+            context += "\n".join(str(page.page_content) for page in pages[:30])
+        if image:
+            image_context = process_image(image)
+            context += f"\nImage Context: {image_context}"
+        if context:
             stuff_chain = load_qa_chain(model, chain_type="stuff", prompt=prompt)
+            stuff_answer = stuff_chain({"input_documents": [], "question": question, "context": context}, return_only_outputs=True)
             gemini_answer = stuff_answer['output_text']
             # Use Mistral model for additional text generation
             combined_output = f"Gemini Answer: {gemini_answer}\n\nMistral Follow-up: {mistral_output}"
             return combined_output
         else:
+            return "Error: No valid context provided. Please upload a valid PDF or image."
     except Exception as e:
         return f"An error occurred: {str(e)}"
 # Define Gradio Interface
 input_file = gr.File(label="Upload PDF File")
+input_image = gr.Image(type="pil", label="Upload Image")
 input_question = gr.Textbox(label="Ask about the document")
 output_text = gr.Textbox(label="Answer - Combined Gemini and Mistral")
+def multimodal_qa(file, image, question):
+    if file is None and image is None:
+        return "Please upload a PDF file or an image first."
+    file_path = file.name if file else None
+    return initialize(file_path, image, question)
 # Create Gradio Interface
 gr.Interface(
+    fn=multimodal_qa,
+    inputs=[input_file, input_image, input_question],
     outputs=output_text,
+    title="Multi-modal RAG with Gemini API and Mistral Model",
+    description="Upload a PDF or an image and ask questions about the content."
+).launch()