Spaces:

saumitras
/

colpali-milvus

Running on Zero

App Files Files Community

saumitras commited on Nov 12, 2024

Commit

f3d315e

•

1 Parent(s): b513aa0

init

Browse files

Files changed (7) hide show

app.py +130 -0
colpali_manager.py +97 -0
middleware.py +56 -0
milvus_manager.py +162 -0
packages.txt +1 -0
pdf_manager.py +42 -0
requirements.txt +8 -0

app.py ADDED Viewed

	@@ -0,0 +1,130 @@

+import gradio as gr
+import tempfile
+import os
+import fitz  # PyMuPDF
+import uuid
+from middleware import Middleware
+def generate_uuid(state):
+    # Check if UUID already exists in session state
+    if state["user_uuid"] is None:
+        # Generate a new UUID if not already set
+        state["user_uuid"] = str(uuid.uuid4())
+    return state["user_uuid"]
+class PDFSearchApp:
+    def __init__(self):
+        self.indexed_docs = {}
+        self.current_pdf = None
+    def upload_and_convert(self, state, file, max_pages):
+        id = generate_uuid(state)
+        if file is None:
+            return "No file uploaded"
+        print(f"Uploading file: {file.name}, id: {id}")
+        try:
+            self.current_pdf = file.name
+            middleware = Middleware(id, create_collection=True)
+            pages = middleware.index(pdf_path=file.name, id=id, max_pages=max_pages)
+            self.indexed_docs[id] = True
+            return f"Uploaded and extracted {len(pages)} pages"
+        except Exception as e:
+            return f"Error processing PDF: {str(e)}"
+    def search_documents(self, state, query, num_results=5):
+        print(f"Searching for query: {query}")
+        id = generate_uuid(state)
+        if not self.indexed_docs[id]:
+            print("Please index documents first")
+            return "Please index documents first"
+        if not query:
+            print("Please enter a search query")
+            return "Please enter a search query"
+        try:
+            middleware = Middleware(id, create_collection=False)
+            search_results = middleware.search([query])[0]
+            page_num = search_results[0][1] + 1
+            print(f"Retrieved page number: {page_num}")
+            img_path = f"pages/{id}/page_{page_num}.png"
+            print(f"Retrieved image path: {img_path}")
+            return img_path
+        except Exception as e:
+            return f"Error during search: {str(e)}"
+def create_ui():
+    app = PDFSearchApp()
+    with gr.Blocks() as demo:
+        state = gr.State(value={"user_uuid": None})
+        gr.Markdown("# Colpali Milvus Search Demo")
+        gr.Markdown("This demo showcases how to use [Colpali](https://github.com/illuin-tech/colpali) embeddings with [Milvus](https://milvus.io/) for pdf search.")
+        with gr.Tab("Upload PDFs"):
+            with gr.Column():
+                file_input = gr.File(label="Upload PDFs")
+                max_pages_input = gr.Slider(
+                    minimum=1,
+                    maximum=2000,
+                    value=10,
+                    step=10,
+                    label="Max Pages"
+                )
+                status = gr.Textbox(label="Status", interactive=False)
+        with gr.Tab("Search"):
+            with gr.Column():
+                query_input = gr.Textbox(label="Query")
+                num_results = gr.Slider(
+                    minimum=1,
+                    maximum=10,
+                    value=5,
+                    step=1,
+                    label="Number of results"
+                )
+                search_btn = gr.Button("Search")
+                results = gr.Image(label="Retrieved Documents")
+        # Event handlers
+        file_input.change(
+            fn=app.upload_and_convert,
+            inputs=[state, file_input, max_pages_input],
+            outputs=[status]
+        )
+        search_btn.click(
+            fn=app.search_documents,
+            inputs=[state, query_input, num_results],
+            outputs=[results]
+        )
+    return demo
+if __name__ == "__main__":
+    demo = create_ui()
+    demo.launch()

colpali_manager.py ADDED Viewed

	@@ -0,0 +1,97 @@

+from colpali_engine.models import ColPali
+from colpali_engine.models.paligemma.colpali.processing_colpali import ColPaliProcessor
+from colpali_engine.utils.processing_utils import BaseVisualRetrieverProcessor
+from colpali_engine.utils.torch_utils import ListDataset, get_torch_device
+from torch.utils.data import DataLoader
+import torch
+from typing import List, cast
+from tqdm import tqdm
+from PIL import Image
+import os
+import spaces
+model_name = "vidore/colpali-v1.2"
+device = get_torch_device("cuda")
+model = ColPali.from_pretrained(
+    model_name,
+    torch_dtype=torch.bfloat16,
+    device_map=device,
+).eval()
+processor = cast(ColPaliProcessor, ColPaliProcessor.from_pretrained(model_name))
+class ColpaliManager:
+    def __init__(self, device = "cuda", model_name = "vidore/colpali-v1.2"):
+        print(f"Initializing ColpaliManager with device {device} and model {model_name}")
+        # self.device = get_torch_device(device)
+        # self.model = ColPali.from_pretrained(
+        #     model_name,
+        #     torch_dtype=torch.bfloat16,
+        #     device_map=self.device,
+        # ).eval()
+        # self.processor = cast(ColPaliProcessor, ColPaliProcessor.from_pretrained(model_name))
+    @spaces.GPU
+    def get_images(self, paths: list[str]) -> List[Image.Image]:
+        return [Image.open(path) for path in paths]
+    @spaces.GPU
+    def process_images(self, image_paths:list[str], batch_size=5):
+        print(f"Processing {len(image_paths)} image_paths")
+        images = self.get_images(image_paths)
+        dataloader = DataLoader(
+            dataset=ListDataset[str](images),
+            batch_size=batch_size,
+            shuffle=False,
+            collate_fn=lambda x: processor.process_images(x),
+        )
+        ds: List[torch.Tensor] = []
+        for batch_doc in tqdm(dataloader):
+            with torch.no_grad():
+                batch_doc = {k: v.to(model.device) for k, v in batch_doc.items()}
+                embeddings_doc = model(**batch_doc)
+            ds.extend(list(torch.unbind(embeddings_doc.to(device))))
+        ds_np = [d.float().cpu().numpy() for d in ds]
+        return ds_np
+    @spaces.GPU
+    def process_text(self, texts: list[str]):
+        print(f"Processing {len(texts)} texts")
+        dataloader = DataLoader(
+            dataset=ListDataset[str](texts),
+            batch_size=1,
+            shuffle=False,
+            collate_fn=lambda x: processor.process_queries(x),
+        )
+        qs: List[torch.Tensor] = []
+        for batch_query in dataloader:
+            with torch.no_grad():
+                batch_query = {k: v.to(model.device) for k, v in batch_query.items()}
+                embeddings_query = model(**batch_query)
+            qs.extend(list(torch.unbind(embeddings_query.to(device))))
+        qs_np = [q.float().cpu().numpy() for q in qs]
+        return qs_np

middleware.py ADDED Viewed

	@@ -0,0 +1,56 @@

+from colpali_manager import ColpaliManager
+from milvus_manager import MilvusManager
+from pdf_manager import PdfManager
+import hashlib
+pdf_manager = PdfManager()
+colpali_manager = ColpaliManager()
+class Middleware:
+    def __init__(self, id:str, create_collection=True):
+        hashed_id = hashlib.md5(id.encode()).hexdigest()[:8]
+        milvus_db_name = f"milvus_{hashed_id}.db"
+        self.milvus_manager = MilvusManager(milvus_db_name, "colpali", create_collection)
+    def index(self, pdf_path: str, id:str, max_pages: int, pages: list[int] = None):
+        print(f"Indexing {pdf_path}, id: {id}, max_pages: {max_pages}")
+        image_paths = pdf_manager.save_images(id, pdf_path, max_pages)
+        print(f"Saved {len(image_paths)} images")
+        colbert_vecs = colpali_manager.process_images(image_paths)
+        images_data = [{
+            "colbert_vecs": colbert_vecs[i],
+            "filepath": image_paths[i]
+        } for i in range(len(image_paths))]
+        print(f"Inserting {len(images_data)} images data to Milvus")
+        self.milvus_manager.insert_images_data(images_data)
+        print("Indexing completed")
+        return image_paths
+    def search(self, search_queries: list[str]):
+        print(f"Searching for {len(search_queries)} queries")
+        final_res = []
+        for query in search_queries:
+            print(f"Searching for query: {query}")
+            query_vec = colpali_manager.process_text([query])[0]
+            search_res = self.milvus_manager.search(query_vec, topk=1)
+            print(f"Search result: {search_res} for query: {query}")
+            final_res.append(search_res)
+        return final_res

milvus_manager.py ADDED Viewed

	@@ -0,0 +1,162 @@

+from pymilvus import MilvusClient, DataType
+import numpy as np
+import concurrent.futures
+class MilvusManager:
+    def __init__(self, milvus_uri, collection_name, create_collection, dim=128):
+        self.client = MilvusClient(uri=milvus_uri)
+        self.collection_name = collection_name
+        if self.client.has_collection(collection_name=self.collection_name):
+            self.client.load_collection(collection_name)
+        self.dim = dim
+        if create_collection:
+            self.create_collection()
+            self.create_index()
+    def create_collection(self):
+        if self.client.has_collection(collection_name=self.collection_name):
+            self.client.drop_collection(collection_name=self.collection_name)
+        schema = self.client.create_schema(
+            auto_id=True,
+            enable_dynamic_fields=True,
+        )
+        schema.add_field(field_name="pk", datatype=DataType.INT64, is_primary=True)
+        schema.add_field(
+            field_name="vector", datatype=DataType.FLOAT_VECTOR, dim=self.dim
+        )
+        schema.add_field(field_name="seq_id", datatype=DataType.INT16)
+        schema.add_field(field_name="doc_id", datatype=DataType.INT64)
+        schema.add_field(field_name="doc", datatype=DataType.VARCHAR, max_length=65535)
+        self.client.create_collection(
+            collection_name=self.collection_name, schema=schema
+        )
+    def create_index(self):
+        self.client.release_collection(collection_name=self.collection_name)
+        self.client.drop_index(
+            collection_name=self.collection_name, index_name="vector"
+        )
+        index_params = self.client.prepare_index_params()
+        index_params.add_index(
+            field_name="vector",
+            index_name="vector_index",
+            index_type="HNSW",
+            metric_type="IP",
+            params={
+                "M": 16,
+                "efConstruction": 500,
+            },
+        )
+        self.client.create_index(
+            collection_name=self.collection_name, index_params=index_params, sync=True
+        )
+    def create_scalar_index(self):
+        self.client.release_collection(collection_name=self.collection_name)
+        index_params = self.client.prepare_index_params()
+        index_params.add_index(
+            field_name="doc_id",
+            index_name="int32_index",
+            index_type="INVERTED",
+        )
+        self.client.create_index(
+            collection_name=self.collection_name, index_params=index_params, sync=True
+        )
+    def search(self, data, topk):
+        search_params = {"metric_type": "IP", "params": {}}
+        results = self.client.search(
+            self.collection_name,
+            data,
+            limit=int(50),
+            output_fields=["vector", "seq_id", "doc_id"],
+            search_params=search_params,
+        )
+        doc_ids = set()
+        for r_id in range(len(results)):
+            for r in range(len(results[r_id])):
+                doc_ids.add(results[r_id][r]["entity"]["doc_id"])
+        scores = []
+        def rerank_single_doc(doc_id, data, client, collection_name):
+            doc_colbert_vecs = client.query(
+                collection_name=collection_name,
+                filter=f"doc_id in [{doc_id}, {doc_id + 1}]",
+                output_fields=["seq_id", "vector", "doc"],
+                limit=1000,
+            )
+            doc_vecs = np.vstack(
+                [doc_colbert_vecs[i]["vector"] for i in range(len(doc_colbert_vecs))]
+            )
+            score = np.dot(data, doc_vecs.T).max(1).sum()
+            return (score, doc_id)
+        with concurrent.futures.ThreadPoolExecutor(max_workers=300) as executor:
+            futures = {
+                executor.submit(
+                    rerank_single_doc, doc_id, data, self.client, self.collection_name
+                ): doc_id
+                for doc_id in doc_ids
+            }
+            for future in concurrent.futures.as_completed(futures):
+                score, doc_id = future.result()
+                scores.append((score, doc_id))
+        scores.sort(key=lambda x: x[0], reverse=True)
+        if len(scores) >= topk:
+            return scores[:topk]
+        else:
+            return scores
+    def insert(self, data):
+        colbert_vecs = [vec for vec in data["colbert_vecs"]]
+        seq_length = len(colbert_vecs)
+        doc_ids = [data["doc_id"] for i in range(seq_length)]
+        seq_ids = list(range(seq_length))
+        docs = [""] * seq_length
+        docs[0] = data["filepath"]
+        self.client.insert(
+            self.collection_name,
+            [
+                {
+                    "vector": colbert_vecs[i],
+                    "seq_id": seq_ids[i],
+                    "doc_id": doc_ids[i],
+                    "doc": docs[i],
+                }
+                for i in range(seq_length)
+            ],
+        )
+    def get_images_as_doc(self, images_with_vectors:list):
+        images_data = []
+        for i in range(len(images_with_vectors)):
+            data = {
+                "colbert_vecs": images_with_vectors[i]["colbert_vecs"],
+                "doc_id": i,
+                "filepath": images_with_vectors[i]["filepath"],
+            }
+            images_data.append(data)
+        return images_data
+    def insert_images_data(self, image_data):
+        data = self.get_images_as_doc(image_data)
+        for i in range(len(data)):
+            self.insert(data[i])

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ poppler-utils

pdf_manager.py ADDED Viewed

	@@ -0,0 +1,42 @@

+from pdf2image import convert_from_path
+import os
+import shutil
+class PdfManager:
+    def __init__(self):
+        pass
+    def clear_and_recreate_dir(self, output_folder):
+        print(f"Clearing output folder {output_folder}")
+        if os.path.exists(output_folder):
+            shutil.rmtree(output_folder)
+        os.makedirs(output_folder)
+    def save_images(self, id, pdf_path, max_pages, pages: list[int] = None) -> list[str]:
+        output_folder = f"pages/{id}/"
+        images = convert_from_path(pdf_path)
+        print(f"Saving images from {pdf_path} to {output_folder}. Max pages: {max_pages}")
+        self.clear_and_recreate_dir(output_folder)
+        num_page_processed = 0
+        for i, image in enumerate(images):
+            if max_pages and num_page_processed >= max_pages:
+                break
+            if pages and i not in pages:
+                continue
+            full_save_path = f"{output_folder}/page_{i + 1}.png"
+            #print(f"Saving image to {full_save_path}")
+            image.save(full_save_path, "PNG")
+            num_page_processed += 1
+        return [f"{output_folder}/page_{i + 1}.png" for i in range(num_page_processed)]

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+gradio==4.25.0
+PyMuPDF==1.24.9
+pdf2image==1.17.0
+pymilvus==2.4.9
+colpali_engine==0.3.4
+tqdm==4.66.5
+pillow==10.4.0
+spaces==0.30.4