Spaces:

adowu
/

prawnikai

Sleeping

App Files Files Community

adowu commited on Nov 16, 2024

Commit

e6eebe9

verified ·

1 Parent(s): e0f90ab

Update database.py

Browse files

Files changed (1) hide show

database.py +25 -35

database.py CHANGED Viewed

@@ -50,7 +50,7 @@ class KodeksProcessor:
         art_num_match = re.match(r'Art\.\s*(\d+)', article_text)
         article_num = art_num_match.group(1) if art_num_match else ""
-        paragraphs = re.findall(r'§\s*(\d+)[.\s]+(.*?)(?=§\s*\d+|$)', article_text, re.DOTALL)
         if not paragraphs:
             return {
@@ -67,40 +67,30 @@ class KodeksProcessor:
     def split_into_chunks(self, text: str, metadata: Dict) -> List[Dict]:
         chunks = []
-        chapters = re.split(r'(Rozdział \d+\n\n[^\n]+)\n', text)
-        current_chapter = ""
-        for i, section in enumerate(chapters):
-            if section.startswith('Rozdział'):
-                current_chapter = section.strip()
-                continue
-            articles = re.split(r'(Art\.\s*\d+.*?)(?=Art\.\s*\d+|$)', section)
-            for article in articles:
-                if not article.strip():
-                    continue
-                if article.startswith('Art.'):
-                    processed_article = self.process_article(article)
-                    chunk_metadata = {
-                        **metadata,
-                        "chapter": current_chapter,
-                        "article": processed_article["article_num"]
-                    }
-                    if processed_article["has_paragraphs"]:
-                        for par_num, par_content in processed_article["paragraphs"]:
-                            chunks.append({
-                                "text": f"Art. {processed_article['article_num']} § {par_num}. {par_content}",
-                                "metadata": {**chunk_metadata, "paragraph": par_num}
-                            })
-                    else:
-                        chunks.append({
-                            "text": processed_article["content"],
-                            "metadata": chunk_metadata
-                        })
         logging.info("Podzielono tekst na %d chunków.", len(chunks))
         return chunks

         art_num_match = re.match(r'Art\.\s*(\d+)', article_text)
         article_num = art_num_match.group(1) if art_num_match else ""
+        paragraphs = re.findall(r'§\s*(\d+)\.\s*(.*?)(?=§\s*\d+|Art\.\s*\d+|$)', article_text, re.DOTALL)
         if not paragraphs:
             return {
     def split_into_chunks(self, text: str, metadata: Dict) -> List[Dict]:
         chunks = []
+        articles = re.split(r'(Art\.\s*\d+)', text)  # Podział na artykuły
+        for i in range(1, len(articles), 2):  # Przechodzimy przez artykuły
+            article_title = articles[i].strip()
+            article_content = articles[i + 1].strip() if i + 1 < len(articles) else ""
+            processed_article = self.process_article(article_title + " " + article_content)
+            chunk_metadata = {
+                **metadata,
+                "article": processed_article["article_num"]
+            }
+            if processed_article["has_paragraphs"]:
+                for par_num, par_content in processed_article["paragraphs"]:
+                    chunks.append({
+                        "text": f"{article_title} §{par_num}. {par_content.strip()}",
+                        "metadata": {**chunk_metadata, "paragraph": par_num}
+                    })
+            else:
+                chunks.append({
+                    "text": processed_article["content"],
+                    "metadata": chunk_metadata
+                })
         logging.info("Podzielono tekst na %d chunków.", len(chunks))
         return chunks