Spaces:

adowu
/

prawnikai

Sleeping

App Files Files Community

adowu commited on Nov 16, 2024

Commit

e0f90ab

verified ·

1 Parent(s): 9b7aea8

Update database.py

Browse files

Files changed (1) hide show

database.py +13 -7

database.py CHANGED Viewed

@@ -27,12 +27,12 @@ class KodeksProcessor:
     def extract_metadata(self, text: str) -> Dict:
         metadata = {}
-        dz_u_match = re.search(r'Dz\\.U\\.(\\d{4})\\.(\\d+)\\.(\\d+)', text)
         if dz_u_match:
             metadata['dz_u'] = f"Dz.U.{dz_u_match.group(1)}.{dz_u_match.group(2)}.{dz_u_match.group(3)}"
             metadata['rok'] = dz_u_match.group(1)
-        nazwa_match = re.search(r'USTAWA\\s+z dnia(.*?)\\n(.*?)\\n', text)
         if nazwa_match:
             metadata['data_ustawy'] = nazwa_match.group(1).strip()
             metadata['nazwa'] = nazwa_match.group(2).strip()
@@ -47,10 +47,10 @@ class KodeksProcessor:
         return "", text
     def process_article(self, article_text: str) -> Dict:
-        art_num_match = re.match(r'Art\\.\\s*(\\d+)', article_text)
         article_num = art_num_match.group(1) if art_num_match else ""
-        paragraphs = re.findall(r'§\\s*(\\d+)[.\\s]+(.*?)(?=§\\s*\\d+|$)', article_text, re.DOTALL)
         if not paragraphs:
             return {
@@ -67,7 +67,7 @@ class KodeksProcessor:
     def split_into_chunks(self, text: str, metadata: Dict) -> List[Dict]:
         chunks = []
-        chapters = re.split(r'(Rozdział \\d+\\n\\n[^\\n]+)\\n', text)
         current_chapter = ""
         for i, section in enumerate(chapters):
@@ -75,7 +75,7 @@ class KodeksProcessor:
                 current_chapter = section.strip()
                 continue
-            articles = re.split(r'(Art\\.\\s*\\d+.*?)(?=Art\\.\\s*\\d+|$)', section)
             for article in articles:
                 if not article.strip():
@@ -123,6 +123,7 @@ class KodeksProcessor:
                 metadatas=[chunk["metadata"]],
                 ids=[f"{metadata['filename']}_{chunk['metadata']['article']}_{i}"]
             )
         logging.info("Dodano %d chunków z pliku %s", len(chunks), metadata['filename'])
@@ -140,4 +141,9 @@ class KodeksProcessor:
             n_results=n_results
         )
         logging.info("Znaleziono %d wyników dla zapytania: %s", len(results['documents'][0]), query)
-        return results

     def extract_metadata(self, text: str) -> Dict:
         metadata = {}
+        dz_u_match = re.search(r'Dz\.U\.(\d{4})\.(\d+)\.(\d+)', text)
         if dz_u_match:
             metadata['dz_u'] = f"Dz.U.{dz_u_match.group(1)}.{dz_u_match.group(2)}.{dz_u_match.group(3)}"
             metadata['rok'] = dz_u_match.group(1)
+        nazwa_match = re.search(r'USTAWA\s+z dnia(.*?)\n(.*?)\n', text)
         if nazwa_match:
             metadata['data_ustawy'] = nazwa_match.group(1).strip()
             metadata['nazwa'] = nazwa_match.group(2).strip()
         return "", text
     def process_article(self, article_text: str) -> Dict:
+        art_num_match = re.match(r'Art\.\s*(\d+)', article_text)
         article_num = art_num_match.group(1) if art_num_match else ""
+        paragraphs = re.findall(r'§\s*(\d+)[.\s]+(.*?)(?=§\s*\d+|$)', article_text, re.DOTALL)
         if not paragraphs:
             return {
     def split_into_chunks(self, text: str, metadata: Dict) -> List[Dict]:
         chunks = []
+        chapters = re.split(r'(Rozdział \d+\n\n[^\n]+)\n', text)
         current_chapter = ""
         for i, section in enumerate(chapters):
                 current_chapter = section.strip()
                 continue
+            articles = re.split(r'(Art\.\s*\d+.*?)(?=Art\.\s*\d+|$)', section)
             for article in articles:
                 if not article.strip():
                 metadatas=[chunk["metadata"]],
                 ids=[f"{metadata['filename']}_{chunk['metadata']['article']}_{i}"]
             )
+            logging.info("Dodano chunk: %s", chunk["text"])  # Logowanie dodawanych chunków
         logging.info("Dodano %d chunków z pliku %s", len(chunks), metadata['filename'])
             n_results=n_results
         )
         logging.info("Znaleziono %d wyników dla zapytania: %s", len(results['documents'][0]), query)
+        return results
+    def list_all_documents(self) -> None:
+        all_docs = self.collection.query(query_texts=[""], n_results=1000)  # Pobierz wszystkie dokumenty
+        for doc in all_docs['documents'][0]:
+            logging.info("Dokument: %s", doc)