Spaces:

kryman27
/

pdf-extractor

Running

App Files Files Community

kryman27 commited on Feb 6

Commit

218a320

verified ·

1 Parent(s): 4b30cd0

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -11

app.py CHANGED Viewed

@@ -7,12 +7,12 @@ import torch
 # Wczytanie modelu LayoutLMv3
 model_name = "kryman27/layoutlmv3-finetuned"
 model = LayoutLMForTokenClassification.from_pretrained(model_name)
-tokenizer = AutoTokenizer.from_pretrained(model_name)  # Automatyczne wykrycie tokenizatora
 # Reguły do wykrywania NIP, kwot, dat
 nip_pattern = re.compile(r'\bPL\s?\d{10}\b|\b\d{10}\b')
-kwota_pattern = re.compile(r'\b\d+[\.,]?\d*\s?(PLN|zł|EUR|USD)?\b')  # Rozpoznawanie walut
-data_pattern = re.compile(r'\b\d{2}\.\d{2}\.\d{4}\b')  # Format DD.MM.YYYY
 payment_keywords = ["data płatności", "termin płatności", "zapłata", "zapłacono", "płatność"]
 seller_keywords = ["sprzedawca", "faktura wystawiona przez", "wystawca", "nazwa firmy"]
@@ -23,17 +23,17 @@ def extract_invoice_data(pdf_file):
         for page in pdf.pages:
             extracted_words = page.extract_words()
             for word in extracted_words:
-                words.append(word['text'])  # Pobieramy tekst słowa
-                bbox = [int(word['x0']), int(word['top']), int(word['x1']), int(word['bottom'])]  # Zaokrąglamy wartości
-                boxes.append(bbox)  # Pobieramy bounding box (pozycję słowa na stronie)
             page_text = page.extract_text()
             if page_text:
                 full_text.append(page_text.lower())
-    full_text = "\n".join(full_text)  # Łączymy cały tekst dokumentu
-    # Tokenizacja tekstu + dodanie bounding boxes
     encoding = tokenizer.encode_plus(words, boxes=boxes, return_tensors="pt", truncation=True)
     # Predykcja modelu
@@ -44,13 +44,12 @@ def extract_invoice_data(pdf_file):
     # Przetwarzanie wyników
     entities = []
     for token, pred in zip(words, predictions):
-        if pred > 0:  # Pomijamy tło
             entities.append((token, model.config.id2label[pred]))
     # 🏢 Wyszukiwanie nazwy sprzedawcy
     seller_name = [token for token, label in entities if "ORG" in label]
-    # Jeśli model nie znalazł, szukamy w tekście
     if not seller_name:
         for line in full_text.split("\n"):
             if any(keyword in line for keyword in seller_keywords):
@@ -62,7 +61,7 @@ def extract_invoice_data(pdf_file):
     # 💰 Wyszukiwanie kwoty całkowitej (największa kwota z walutą)
     kwoty = kwota_pattern.findall(full_text)
-    kwoty = [k[0].replace(",", ".") for k in kwoty if k[0].replace(",", ".").replace(".", "").isdigit()]
     total_amount = max(map(float, kwoty), default=None) if kwoty else None
     # 📆 Wyszukiwanie daty płatności

 # Wczytanie modelu LayoutLMv3
 model_name = "kryman27/layoutlmv3-finetuned"
 model = LayoutLMForTokenClassification.from_pretrained(model_name)
+tokenizer = AutoTokenizer.from_pretrained(model_name)
 # Reguły do wykrywania NIP, kwot, dat
 nip_pattern = re.compile(r'\bPL\s?\d{10}\b|\b\d{10}\b')
+kwota_pattern = re.compile(r'\b\d+[\.,]?\d*\s?(PLN|zł|EUR|USD)?\b')  # Kwoty z walutami
+data_pattern = re.compile(r'\b\d{2}\.\d{2}\.\d{4}\b')
 payment_keywords = ["data płatności", "termin płatności", "zapłata", "zapłacono", "płatność"]
 seller_keywords = ["sprzedawca", "faktura wystawiona przez", "wystawca", "nazwa firmy"]
         for page in pdf.pages:
             extracted_words = page.extract_words()
             for word in extracted_words:
+                words.append(word['text'])
+                bbox = [int(word['x0']), int(word['top']), int(word['x1']), int(word['bottom'])]
+                boxes.append(bbox)
             page_text = page.extract_text()
             if page_text:
                 full_text.append(page_text.lower())
+    full_text = "\n".join(full_text)
+    # Tokenizacja + bounding boxes
     encoding = tokenizer.encode_plus(words, boxes=boxes, return_tensors="pt", truncation=True)
     # Predykcja modelu
     # Przetwarzanie wyników
     entities = []
     for token, pred in zip(words, predictions):
+        if pred > 0:
             entities.append((token, model.config.id2label[pred]))
     # 🏢 Wyszukiwanie nazwy sprzedawcy
     seller_name = [token for token, label in entities if "ORG" in label]
     if not seller_name:
         for line in full_text.split("\n"):
             if any(keyword in line for keyword in seller_keywords):
     # 💰 Wyszukiwanie kwoty całkowitej (największa kwota z walutą)
     kwoty = kwota_pattern.findall(full_text)
+    kwoty = [k.replace(",", ".") for k in kwoty if isinstance(k, str) and k.replace(",", ".").replace(".", "").isdigit()]  # ✅ Poprawiona linia
     total_amount = max(map(float, kwoty), default=None) if kwoty else None
     # 📆 Wyszukiwanie daty płatności