Standard_Intelligence_Dev

Sleeping

YchKhan commited on May 15, 2024

Commit

209c0f9

verified ·

1 Parent(s): 843b7a4

Update split_files_to_excel.py

Files changed (1) hide show

split_files_to_excel.py CHANGED Viewed

@@ -470,7 +470,7 @@ def split_doc_in_chunks(input_folder, base_folders):
                 print("Treatment of pdf file", path)
                 raw_chunks = split_pdf(path, input_folder)
                 for raw_chunk in raw_chunks:
-                    print(f"BASE zzzzz LIST : {base_folders} = i = {i}")
                     raw_chunk.metadata["Base Folder"] = base_folders[i]
                 chunks = group_chunks_by_section(raw_chunks)
                 print(f"Document splitted in {len(chunks)} chunks")
@@ -581,11 +581,11 @@ def split_in_df(files):
         if file_path.endswith('.zip'):
             extracted_files = extract_zip(file_path)
             processed_files.extend(extracted_files)
-            base_folders.extend([os.path.splitext([os.path.basename(file_path))[0]] * len(extracted_files)])
         else:
             processed_files.append(file_path)
             base_folders.append("")
-    print(f"BASE FOLDERS LIST : {base_folders}")
     print("Finished processing zip files\nSplitting files into chunks...")
     documents = split_doc_in_chunks(processed_files, base_folders)
     re_docs = resplit_by_end_of_sentence(documents, 1000, 100, 1500)

                 print("Treatment of pdf file", path)
                 raw_chunks = split_pdf(path, input_folder)
                 for raw_chunk in raw_chunks:
+                    #print(f"BASE zzzzz LIST : {base_folders} = i = {i}")
                     raw_chunk.metadata["Base Folder"] = base_folders[i]
                 chunks = group_chunks_by_section(raw_chunks)
                 print(f"Document splitted in {len(chunks)} chunks")
         if file_path.endswith('.zip'):
             extracted_files = extract_zip(file_path)
             processed_files.extend(extracted_files)
+            base_folders.extend([[os.path.splitext(os.path.basename(file_path))[0]] * len(extracted_files)])
         else:
             processed_files.append(file_path)
             base_folders.append("")
+    #print(f"BASE FOLDERS LIST : {base_folders}")
     print("Finished processing zip files\nSplitting files into chunks...")
     documents = split_doc_in_chunks(processed_files, base_folders)
     re_docs = resplit_by_end_of_sentence(documents, 1000, 100, 1500)