Spaces:

baconnier
/

csv-plus-plus

Running

App Files Files Community

baconnier commited on Oct 26, 2024

Commit

947739b

verified ·

1 Parent(s): 5bda113

Update app.py

Browse files

Files changed (1) hide show

app.py +73 -20

app.py CHANGED Viewed

@@ -7,18 +7,17 @@ import category_encoders as ce
 import umap
 import matplotlib.pyplot as plt
 from sklearn.preprocessing import StandardScaler
-import seaborn as sns
-import numpy as np
-import io
-import base64
 class DataAnalyzer:
     def __init__(self):
         self.temp_dir = tempfile.mkdtemp()
         self.df = None
     def generate_sweetviz_report(self, df):
-        self.df = df  # Store DataFrame for other analyses
         report = sv.analyze(df)
         report_path = os.path.join(self.temp_dir, "report.html")
         report.show_html(report_path, open_browser=False)
@@ -41,14 +40,64 @@ class DataAnalyzer:
         os.remove(report_path)
         return html_with_table
     def encode_and_visualize(self, column_name, encoder_type='binary'):
         if self.df is None or column_name not in self.df.columns:
             return None
-        # Create DataFrame with only the selected column
         df_subset = self.df[[column_name]].copy()
-        # Select encoder
         encoders = {
             'binary': ce.BinaryEncoder(),
             'onehot': ce.OneHotEncoder(),
@@ -57,15 +106,11 @@ class DataAnalyzer:
         }
         encoder = encoders.get(encoder_type)
-        # Encode data
         encoded_df = encoder.fit_transform(df_subset)
-        # Scale the encoded features
         scaler = StandardScaler()
         scaled_data = scaler.fit_transform(encoded_df)
-        # Apply UMAP
         reducer = umap.UMAP(
             n_neighbors=15,
             min_dist=0.1,
@@ -75,7 +120,6 @@ class DataAnalyzer:
         embedding = reducer.fit_transform(scaled_data)
-        # Create visualization
         plt.figure(figsize=(10, 6))
         scatter = plt.scatter(
             embedding[:, 0],
@@ -90,7 +134,6 @@ class DataAnalyzer:
         plt.xlabel('UMAP1')
         plt.ylabel('UMAP2')
-        # Save plot to bytes
         buf = io.BytesIO()
         plt.savefig(buf, format='png', bbox_inches='tight')
         plt.close()
@@ -109,6 +152,9 @@ def create_interface():
                 file_input = gr.File(label="Upload CSV")
                 report_html = gr.HTML()
             with gr.TabItem("Categorical Analysis"):
                 with gr.Row():
                     column_dropdown = gr.Dropdown(
@@ -126,29 +172,36 @@ def create_interface():
         def process_file(file):
             if file is None:
-                return None, gr.Dropdown(choices=[])
             try:
                 df = pd.read_csv(file.name)
-                # Get categorical columns
                 cat_columns = df.select_dtypes(include=['object', 'category']).columns.tolist()
-                return analyzer.generate_sweetviz_report(df), gr.Dropdown(choices=cat_columns)
             except Exception as e:
-                return f"Error generating report: {str(e)}", gr.Dropdown(choices=[])
         def update_plot(column, encoder_type):
             if column is None:
                 return None
             try:
-                plot_bytes = analyzer.encode_and_visualize(column, encoder_type)
-                return plot_bytes
             except Exception as e:
                 return None
         file_input.change(
             fn=process_file,
             inputs=[file_input],
-            outputs=[report_html, column_dropdown]
         )
         column_dropdown.change(

 import umap
 import matplotlib.pyplot as plt
 from sklearn.preprocessing import StandardScaler
+from autoviz.AutoViz_Class import AutoViz_Class
+import shutil
 class DataAnalyzer:
     def __init__(self):
         self.temp_dir = tempfile.mkdtemp()
         self.df = None
+        self.AV = AutoViz_Class()
     def generate_sweetviz_report(self, df):
+        self.df = df
         report = sv.analyze(df)
         report_path = os.path.join(self.temp_dir, "report.html")
         report.show_html(report_path, open_browser=False)
         os.remove(report_path)
         return html_with_table
+    def generate_autoviz_report(self, df):
+        """Generate AutoViz report and return the HTML content"""
+        # Create a temporary directory for AutoViz output
+        viz_temp_dir = os.path.join(self.temp_dir, "autoviz")
+        if os.path.exists(viz_temp_dir):
+            shutil.rmtree(viz_temp_dir)
+        os.makedirs(viz_temp_dir)
+        try:
+            # Generate AutoViz report
+            dft = self.AV.AutoViz(
+                filename='',
+                sep=',',
+                depVar='',
+                dfte=df,
+                header=0,
+                verbose=0,
+                lowess=False,
+                chart_format='html',
+                max_rows_analyzed=150000,
+                save_plot_dir=viz_temp_dir
+            )
+            # Combine all HTML files into one
+            html_content = ""
+            for file in sorted(os.listdir(viz_temp_dir)):
+                if file.endswith('.html'):
+                    with open(os.path.join(viz_temp_dir, file), 'r', encoding='utf-8') as f:
+                        html_content += f.read() + "<br><hr><br>"
+            # Wrap the content in a scrollable div
+            html_with_table = f"""
+            <table width="100%" style="border-collapse: collapse;">
+                <tr>
+                    <td style="padding: 20px; border: 1px solid #ddd;">
+                        <div style="height: 800px; overflow: auto;">
+                            {html_content}
+                        </div>
+                    </td>
+                </tr>
+            </table>
+            """
+            return html_with_table
+        except Exception as e:
+            return f"Error generating AutoViz report: {str(e)}"
+        finally:
+            # Clean up
+            if os.path.exists(viz_temp_dir):
+                shutil.rmtree(viz_temp_dir)
     def encode_and_visualize(self, column_name, encoder_type='binary'):
         if self.df is None or column_name not in self.df.columns:
             return None
         df_subset = self.df[[column_name]].copy()
         encoders = {
             'binary': ce.BinaryEncoder(),
             'onehot': ce.OneHotEncoder(),
         }
         encoder = encoders.get(encoder_type)
         encoded_df = encoder.fit_transform(df_subset)
         scaler = StandardScaler()
         scaled_data = scaler.fit_transform(encoded_df)
         reducer = umap.UMAP(
             n_neighbors=15,
             min_dist=0.1,
         embedding = reducer.fit_transform(scaled_data)
         plt.figure(figsize=(10, 6))
         scatter = plt.scatter(
             embedding[:, 0],
         plt.xlabel('UMAP1')
         plt.ylabel('UMAP2')
         buf = io.BytesIO()
         plt.savefig(buf, format='png', bbox_inches='tight')
         plt.close()
                 file_input = gr.File(label="Upload CSV")
                 report_html = gr.HTML()
+            with gr.TabItem("AutoViz Analysis"):
+                autoviz_html = gr.HTML()
             with gr.TabItem("Categorical Analysis"):
                 with gr.Row():
                     column_dropdown = gr.Dropdown(
         def process_file(file):
             if file is None:
+                return None, None, gr.Dropdown(choices=[])
             try:
                 df = pd.read_csv(file.name)
                 cat_columns = df.select_dtypes(include=['object', 'category']).columns.tolist()
+                # Generate both reports
+                sweetviz_report = analyzer.generate_sweetviz_report(df)
+                autoviz_report = analyzer.generate_autoviz_report(df)
+                return (
+                    sweetviz_report,
+                    autoviz_report,
+                    gr.Dropdown(choices=cat_columns)
+                )
             except Exception as e:
+                return f"Error: {str(e)}", None, gr.Dropdown(choices=[])
         def update_plot(column, encoder_type):
             if column is None:
                 return None
             try:
+                return analyzer.encode_and_visualize(column, encoder_type)
             except Exception as e:
                 return None
         file_input.change(
             fn=process_file,
             inputs=[file_input],
+            outputs=[report_html, autoviz_html, column_dropdown]
         )
         column_dropdown.change(