Spaces:

GIZ
/

audit_assistant

Running on CPU Upgrade

ppsingh commited on Jul 10

Commit

22b7264

•

1 Parent(s): 7ebdd15

Update auditqa/doc_process.py

Files changed (1) hide show

auditqa/doc_process.py CHANGED Viewed

@@ -3,6 +3,8 @@ import os
 from langchain.text_splitter import RecursiveCharacterTextSplitter, SentenceTransformersTokenTextSplitter
 from transformers import AutoTokenizer
 from langchain_community.document_loaders import PyMuPDFLoader
 path_to_data = "./data/"
@@ -37,4 +39,19 @@ def process_pdf():
         all_documents[file] = doc_processed
     print(all_documents.keys())
-    print(all_documents['ABC'])

 from langchain.text_splitter import RecursiveCharacterTextSplitter, SentenceTransformersTokenTextSplitter
 from transformers import AutoTokenizer
 from langchain_community.document_loaders import PyMuPDFLoader
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain_community.vectorstores import Qdrant
 path_to_data = "./data/"
         all_documents[file] = doc_processed
     print(all_documents.keys())
+    print(all_documents['ABC'])
+    embeddings = HuggingFaceEmbeddings(
+      model_name="sentence-transformers/all-mpnet-base-v2"
+    )
+    qdrant_collections = {}
+    for file,value in all_documents:
+        qdrant_collections[file] = Qdrant.from_documents(
+            value,
+            embeddings,
+            location=":memory:",
+            collection_name=file,
+        )