Spaces:

poemsforaphrodite
/

gscpro

Running

App Files Files Community

poemsforaphrodite commited on Jul 9, 2024

Commit

026bae0

•

1 Parent(s): a0e3f4d

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -19

app.py CHANGED Viewed

@@ -17,6 +17,7 @@ import requests
 from bs4 import BeautifulSoup
 load_dotenv()
 # Initialize Cohere client
 COHERE_API_KEY = os.environ["COHERE_API_KEY"]
@@ -46,8 +47,9 @@ DF_PREVIEW_ROWS = 100
 # -------------
 def setup_streamlit():
-    st.set_page_config(page_title="GSC Relevency Score", layout="wide")
-    st.title("GSC Relevency Score")
     st.divider()
 def init_session_state():
@@ -106,12 +108,20 @@ def calculate_relevancy_scores(df, model_type):
     return df
 def process_gsc_data(df):
-    df_sorted = df.sort_values(['page', 'clicks'], ascending=[True, False])
-    df_unique = df_sorted.drop_duplicates(subset='page', keep='first').copy()
     if 'relevancy_score' not in df_unique.columns:
         df_unique['relevancy_score'] = 0
     else:
         df_unique['relevancy_score'] = df_sorted.groupby('page')['relevancy_score'].first().values
     result = df_unique[['page', 'query', 'clicks', 'impressions', 'ctr', 'position', 'relevancy_score']]
     return result
@@ -178,13 +188,8 @@ def fetch_gsc_data(webproperty, search_type, start_date, end_date, dimensions, d
         return pd.DataFrame()
 def fetch_data_loading(webproperty, search_type, start_date, end_date, dimensions, device_type=None, model_type='english'):
-    with st.spinner('Fetching data...'):
         df = fetch_gsc_data(webproperty, search_type, start_date, end_date, dimensions, device_type)
-        if not df.empty:
-            st.session_state.report_data = df
-            st.experimental_rerun()  # Rerun to display the fetched data immediately
-    with st.spinner('Calculating relevancy scores...'):
         if not df.empty:
             df = calculate_relevancy_scores(df, model_type)
         processed_df = process_gsc_data(df)
@@ -303,9 +308,9 @@ def show_paginated_dataframe(report, rows_per_page=20):
     report['clickable_url'] = report['page'].apply(make_clickable)
-    # Reorder columns to put clickable_url first
-    columns = ['clickable_url'] + [col for col in report.columns if col != 'clickable_url' and col != 'page']
-    report = report[columns]
     total_rows = len(report)
     total_pages = (total_rows - 1) // rows_per_page + 1
@@ -339,7 +344,7 @@ def main():
     if 'auth_flow' not in st.session_state or 'auth_url' not in st.session_state:
         st.session_state.auth_flow, st.session_state.auth_url = google_auth(client_config)
-    query_params = st.query_params
     auth_code = query_params.get("code", [None])[0]
     if auth_code and 'credentials' not in st.session_state:
@@ -357,7 +362,7 @@ def main():
             webproperty = show_property_selector(properties, account)
             search_type = show_search_type_selector()
             date_range_selection = show_date_range_selector()
-            model_type = show_model_type_selector()
             if date_range_selection == 'Custom Range':
                 show_custom_date_inputs()
                 start_date, end_date = st.session_state.custom_start_date, st.session_state.custom_end_date
@@ -371,15 +376,14 @@ def main():
             if st.button("Fetch Data"):
                 with st.spinner('Fetching data...'):
-                    st.session_state.report_data = fetch_data_loading(webproperty, search_type, start_date, end_date, selected_dimensions, model_type=model_type)
             if st.session_state.report_data is not None and not st.session_state.report_data.empty:
-                print("hr;;")
-                print(st.session_state.report_data)
                 show_paginated_dataframe(st.session_state.report_data)
                 download_csv_link(st.session_state.report_data)
             elif st.session_state.report_data is not None:
                 st.warning("No data found for the selected criteria.")
 if __name__ == "__main__":
     main()

 from bs4 import BeautifulSoup
 load_dotenv()
+#test
 # Initialize Cohere client
 COHERE_API_KEY = os.environ["COHERE_API_KEY"]
 # -------------
 def setup_streamlit():
+    st.set_page_config(page_title="Simple Google Search Console Data", layout="wide")
+    st.title("✨ Simple Google Search Console Data | June 2024")
+    st.markdown(f"### Lightweight GSC Data Extractor. (Max {MAX_ROWS:,} Rows)")
     st.divider()
 def init_session_state():
     return df
 def process_gsc_data(df):
+    # Filter for queries below position 10
+    df_filtered = df[df['position'] > 10].copy()
+    # Sort by impressions in descending order
+    df_sorted = df_filtered.sort_values(['impressions'], ascending=[False])
+    # Keep only the highest impression query for each page
+    df_unique = df_sorted.drop_duplicates(subset='page', keep='first')
     if 'relevancy_score' not in df_unique.columns:
         df_unique['relevancy_score'] = 0
     else:
         df_unique['relevancy_score'] = df_sorted.groupby('page')['relevancy_score'].first().values
     result = df_unique[['page', 'query', 'clicks', 'impressions', 'ctr', 'position', 'relevancy_score']]
     return result
         return pd.DataFrame()
 def fetch_data_loading(webproperty, search_type, start_date, end_date, dimensions, device_type=None, model_type='english'):
+    with st.spinner('Fetching data and calculating relevancy scores...'):
         df = fetch_gsc_data(webproperty, search_type, start_date, end_date, dimensions, device_type)
         if not df.empty:
             df = calculate_relevancy_scores(df, model_type)
         processed_df = process_gsc_data(df)
     report['clickable_url'] = report['page'].apply(make_clickable)
+    # Reorder columns to put clickable_url first and sort by impressions
+    columns = ['clickable_url', 'query', 'impressions', 'clicks', 'ctr', 'position', 'relevancy_score']
+    report = report[columns].sort_values('impressions', ascending=False)
     total_rows = len(report)
     total_pages = (total_rows - 1) // rows_per_page + 1
     if 'auth_flow' not in st.session_state or 'auth_url' not in st.session_state:
         st.session_state.auth_flow, st.session_state.auth_url = google_auth(client_config)
+    query_params = st.experimental_get_query_params()
     auth_code = query_params.get("code", [None])[0]
     if auth_code and 'credentials' not in st.session_state:
             webproperty = show_property_selector(properties, account)
             search_type = show_search_type_selector()
             date_range_selection = show_date_range_selector()
+            model_type = show_model_type_selector()  # Add this line
             if date_range_selection == 'Custom Range':
                 show_custom_date_inputs()
                 start_date, end_date = st.session_state.custom_start_date, st.session_state.custom_end_date
             if st.button("Fetch Data"):
                 with st.spinner('Fetching data...'):
+                    st.session_state.report_data = fetch_data_loading(webproperty, search_type, start_date, end_date, selected_dimensions, model_type=model_type)  # Update this line
             if st.session_state.report_data is not None and not st.session_state.report_data.empty:
                 show_paginated_dataframe(st.session_state.report_data)
                 download_csv_link(st.session_state.report_data)
             elif st.session_state.report_data is not None:
                 st.warning("No data found for the selected criteria.")
 if __name__ == "__main__":
     main()