Spaces:

bziiit
/

RAG-EC-Campagne-N1.1

Sleeping

App Files Files Community

LaurentTRIPIED commited on Mar 31

Commit

ce2d47f

•

1 Parent(s): 28f7073

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -44

app.py CHANGED Viewed

@@ -1,48 +1,15 @@
-import fitz  # Import de PyMuPDF
-import json
-import os
 def extract_text_from_pdf(pdf_path):
-    """
-    Extrait le texte de chaque page d'un fichier PDF.
-    :param pdf_path: Chemin vers le fichier PDF.
-    :return: Liste de dictionnaires avec le texte de chaque page et le numéro de page.
-    """
-    # Ouvre le fichier PDF
-    with fitz.open(pdf_path) as doc:
-        pages_text = []
-        # Parcourt chaque page
-        for page_num, page in enumerate(doc, start=1):
-            # Extrait le texte de la page
-            page_text = page.get_text()
-            pages_text.append({"page": page_num, "text": page_text})
-        return pages_text
-def save_text_to_json(data, output_file):
-    """
-    Sauvegarde le texte extrait dans un fichier JSON.
-    :param data: Les données à sauvegarder (liste de dictionnaires).
-    :param output_file: Chemin du fichier JSON de sortie.
-    """
-    with open(output_file, 'w', encoding='utf-8') as f:
-        json.dump(data, f, ensure_ascii=False, indent=4)
-# Chemin vers le fichier PDF dans le répertoire data/
 pdf_path = 'data/07-VF2_UDM_Oneframe_A4-2023.pdf'
-# Chemin du fichier JSON de sortie
-json_output_path = 'data/extracted_text.json'
-# Vérification de l'existence du répertoire data/
-if not os.path.exists('data'):
-    os.makedirs('data')
-# Extrait le texte du PDF
 pdf_text = extract_text_from_pdf(pdf_path)
-# Sauvegarde le texte dans un fichier JSON
-save_text_to_json(pdf_text, json_output_path)
-print(f"Le texte a été extrait et sauvegardé dans {json_output_path}")

+import PyPDF2
 def extract_text_from_pdf(pdf_path):
+    text = []
+    with open(pdf_path, 'rb') as file:
+        pdf_reader = PyPDF2.PdfReader(file)
+        for page in pdf_reader.pages:
+            text.append(page.extract_text())
+    return text
+# Utilisation de la fonction
 pdf_path = 'data/07-VF2_UDM_Oneframe_A4-2023.pdf'
 pdf_text = extract_text_from_pdf(pdf_path)
+for page_num, page_text in enumerate(pdf_text, start=1):
+    print(f"Page {page_num}:\n{page_text}\n{'='*100}\n")