Standard_Intelligence_Dev

Sleeping

YchKhan commited on Apr 17

Commit

d425ddf

•

1 Parent(s): 5df3669

Update split_files_to_excel.py

Files changed (1) hide show

split_files_to_excel.py CHANGED Viewed

@@ -477,8 +477,25 @@ def build_index(docs, index, output_folder):
             output_folder.upload_file(f, os.path.join(temp_dir, f))
 def split_in_df(files):
-    documents = split_doc_in_chunks(files)
     df = pd.DataFrame()
     for document in documents:
         filename = document.metadata['filename']

             output_folder.upload_file(f, os.path.join(temp_dir, f))
+def extract_zip(zip_path):
+    extracted_files = []
+    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
+        for file_info in zip_ref.infolist():
+            extracted_files.append(file_info.filename)
+            zip_ref.extract(file_info.filename)
+    return extracted_files
 def split_in_df(files):
+    print("Processing zip files...")
+    for file_path in files:
+        if file_path.endswith('.zip'):
+            extracted_files = extract_zip(file_path)
+            processed_files.extend(extracted_files)
+        else:
+            processed_files.append(file_path)
+    print("Finished processing zip files\Splitting files into chunks...")
+    documents = split_doc_in_chunks(processed_files)
+    print("Finished splitting")
     df = pd.DataFrame()
     for document in documents:
         filename = document.metadata['filename']