webspider

Running

bsenst commited on Nov 25, 2024

Commit

ca9e6a8

verified ·

1 Parent(s): 28b9e2a

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+import streamlit as st
+import os
+import time
+import json
+def check_scraping_status(log_file="scraping_status.log"):
+    try:
+        with open(log_file, "r") as file:
+            lines = file.readlines()
+            status = lines[-1]
+            return status
+    except FileNotFoundError:
+        return "Scraping not run yet"  # Log file does not exist; assume scraping is ongoing
+def run_scraping(url):
+    if os.path.exists("output.json"):
+        os.remove("output.json")
+    os.popen(f"scrapy runspider homespider.py -a start_url={url} -a depth_limit={depth_limit} -a pagecount_limit={pagecount_limit} -o output.json")
+    st.success("Scraping started")
+# Streamlit interface
+st.title("Scraping")
+col1, col2 = st.columns(2)
+with col1:
+    depth_limit = st.slider("Depth Limit", min_value=1, value=2, max_value=5, step=1)
+with col2:
+    pagecount_limit = st.slider(
+        "Page Count", min_value=10, value=10, max_value=50, step=10
+    )
+url = st.text_input("Enter URL", value="https://bsenst.github.io/toscrape/app-website/")
+if st.button("Run Scraping"):
+    if check_scraping_status() == "Scraping running":
+        st.warning("Scraping in progress...")
+    else:
+        run_scraping(url)
+if st.button("Status Scraping"):
+    st.warning(check_scraping_status())