Compliance_Test

Sleeping

dwipper commited on Oct 29, 2023

Commit

cbbfccc

1 Parent(s): 7a2985c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,8 +7,9 @@ import json
 from jinja2 import Template
 import requests
 from pdfminer.high_level import extract_text
-#import pdfkit
 import pdfkit
 # Initialize OpenAI
 openai.api_key = os.environ.get('OPENAI_API_KEY')
@@ -318,10 +319,28 @@ def login_auth(username, password):
     return False
 def pdf_to_text(contract_file_cmpt, contract_text_tbox, file_name_tbox):
-    file_text = extract_text(contract_file_cmpt.name)
     original_file_name = contract_file_cmpt.name.split("/")[-1]
     redline_file_name = original_file_name.split(".")[0]+" Redline.pdf"

 from jinja2 import Template
 import requests
 from pdfminer.high_level import extract_text
+import fitz
 import pdfkit
 # Initialize OpenAI
 openai.api_key = os.environ.get('OPENAI_API_KEY')
     return False
+def extract_text_with_spacing(pdf_path):
+    document = fitz.open(pdf_path)
+    all_text = []
+    for page in document:
+        # Extract text in a dict structure
+        blocks = page.get_text("dict")["blocks"]
+        for b in blocks:
+            if "lines" in b:  # Check if the block contains lines of text
+                for line in b["lines"]:
+                    span_texts = [span["text"] for span in line["spans"]]
+                    all_text.append(" ".join(span_texts))
+                all_text.append("\n")  # Presume a new block is a new paragraph
+    document.close()
+    return "\n".join(all_text)
 def pdf_to_text(contract_file_cmpt, contract_text_tbox, file_name_tbox):
+    file_text = extract_text_with_spacing(contract_file_cmpt.name)
+    #file_text = extract_text(contract_file_cmpt.name)
     original_file_name = contract_file_cmpt.name.split("/")[-1]
     redline_file_name = original_file_name.split(".")[0]+" Redline.pdf"