Spaces:

techconspartners
/

ConversAI

Sleeping

Rauhan commited on Aug 7, 2024

Commit

47650a0

1 Parent(s): b92a943

UPDATE: New Endpoints

Files changed (2) hide show

functions.py CHANGED Viewed

@@ -20,7 +20,7 @@ from qdrant_client import QdrantClient
 from langchain_groq import ChatGroq
 from pdf2image import convert_from_bytes
 import numpy as np
-from paddleocr import PaddleOCR
 from bs4 import BeautifulSoup
 from urllib.parse import urlparse, urljoin
 from supabase import create_client
@@ -40,7 +40,7 @@ vectorEmbeddings = HuggingFaceEmbeddings(
     model_kwargs = model_kwargs,
     encode_kwargs = encode_kwargs
 )
-ocr = PaddleOCR(use_angle_cls=True, lang='en')
 sparseEmbeddings = FastEmbedSparse(model = "Qdrant/BM25")
 prompt = """
 INSTRUCTIONS:
@@ -290,15 +290,8 @@ def getLinks(url: str, timeout = 30):
 def getTextFromImagePDF(pdfBytes):
-    global ocr
     allImages = convert_from_bytes(pdfBytes)
     allImages = [np.array(image) for image in allImages]
-    pageWiseText = []
-    for page in allImages:
-        result = ocr.ocr(page)
-        if result[0]:
-            retrievedText = "\n".join([result[0][x][1][0] for x in range(len(result[0]))])
-        else:
-            retrievedText = ""
-    pageWiseText.append(retrievedText)
-    return "\n\n\n".join(pageWiseText)

 from langchain_groq import ChatGroq
 from pdf2image import convert_from_bytes
 import numpy as np
+import easyocr
 from bs4 import BeautifulSoup
 from urllib.parse import urlparse, urljoin
 from supabase import create_client
     model_kwargs = model_kwargs,
     encode_kwargs = encode_kwargs
 )
+reader = easyocr.Reader(['en'], gpu = True)
 sparseEmbeddings = FastEmbedSparse(model = "Qdrant/BM25")
 prompt = """
 INSTRUCTIONS:
 def getTextFromImagePDF(pdfBytes):
+    global reader
     allImages = convert_from_bytes(pdfBytes)
     allImages = [np.array(image) for image in allImages]
+    text = "\n\n\n".join(["\n".join([text[1] for text in reader.readtext(image, paragraph=True)]) for image in allImages])
+    return text

requirements.txt CHANGED Viewed

@@ -17,8 +17,7 @@ PyPDF2
 python-dotenv
 pydantic
 pandas
-paddlepaddle-gpu
-paddleocr
 pdf2image
 sentence-transformers
 supabase

 python-dotenv
 pydantic
 pandas
+easyocr
 pdf2image
 sentence-transformers
 supabase