LaurentTRIPIED commited on
Commit
ce2d47f
1 Parent(s): 28f7073

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +11 -44
app.py CHANGED
@@ -1,48 +1,15 @@
1
- import fitz # Import de PyMuPDF
2
- import json
3
- import os
4
-
5
 
6
  def extract_text_from_pdf(pdf_path):
7
- """
8
- Extrait le texte de chaque page d'un fichier PDF.
9
-
10
- :param pdf_path: Chemin vers le fichier PDF.
11
- :return: Liste de dictionnaires avec le texte de chaque page et le numéro de page.
12
- """
13
- # Ouvre le fichier PDF
14
- with fitz.open(pdf_path) as doc:
15
- pages_text = []
16
- # Parcourt chaque page
17
- for page_num, page in enumerate(doc, start=1):
18
- # Extrait le texte de la page
19
- page_text = page.get_text()
20
- pages_text.append({"page": page_num, "text": page_text})
21
- return pages_text
22
-
23
- def save_text_to_json(data, output_file):
24
- """
25
- Sauvegarde le texte extrait dans un fichier JSON.
26
-
27
- :param data: Les données à sauvegarder (liste de dictionnaires).
28
- :param output_file: Chemin du fichier JSON de sortie.
29
- """
30
- with open(output_file, 'w', encoding='utf-8') as f:
31
- json.dump(data, f, ensure_ascii=False, indent=4)
32
-
33
- # Chemin vers le fichier PDF dans le répertoire data/
34
  pdf_path = 'data/07-VF2_UDM_Oneframe_A4-2023.pdf'
35
- # Chemin du fichier JSON de sortie
36
- json_output_path = 'data/extracted_text.json'
37
-
38
- # Vérification de l'existence du répertoire data/
39
- if not os.path.exists('data'):
40
- os.makedirs('data')
41
-
42
- # Extrait le texte du PDF
43
  pdf_text = extract_text_from_pdf(pdf_path)
44
-
45
- # Sauvegarde le texte dans un fichier JSON
46
- save_text_to_json(pdf_text, json_output_path)
47
-
48
- print(f"Le texte a été extrait et sauvegardé dans {json_output_path}")
 
1
+ import PyPDF2
 
 
 
2
 
3
  def extract_text_from_pdf(pdf_path):
4
+ text = []
5
+ with open(pdf_path, 'rb') as file:
6
+ pdf_reader = PyPDF2.PdfReader(file)
7
+ for page in pdf_reader.pages:
8
+ text.append(page.extract_text())
9
+ return text
10
+
11
+ # Utilisation de la fonction
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
12
  pdf_path = 'data/07-VF2_UDM_Oneframe_A4-2023.pdf'
 
 
 
 
 
 
 
 
13
  pdf_text = extract_text_from_pdf(pdf_path)
14
+ for page_num, page_text in enumerate(pdf_text, start=1):
15
+ print(f"Page {page_num}:\n{page_text}\n{'='*100}\n")