Spaces:

naufalnashif
/

scraping-ecommerce-2023

Sleeping

App Files Files Community

scraping-ecommerce-2023 / app.py

naufalnashif

Update app.py

d8298cf over 1 year ago

raw

history blame

5.77 kB

	import requests
	from bs4 import BeautifulSoup
	import pandas as pd
	from urllib.parse import quote
	import streamlit as st
	import json
	import time

	@st.cache_data
	def scrape_e_commerce(nama_barang, num_items):
	products = []
	page = 1
	query = quote(nama_barang)
	progress_text = "Scraping in progress. Please wait."
	my_bar = st.progress(0, text=progress_text)

	#while len(products) < num_items :
	for percent in range(num_items):
	if len (products) > num_items :
	products = products[:num_items]
	break

	prop = min(len(products)/num_items, 1)
	my_bar.progress(prop, text=progress_text)

	url = f"https://www.klikindomaret.com/search/?key={query}&categories=&productbrandid=&sortcol=&pagesize=54&page={page}&startprice=&endprice=&attributes=&ShowItem="
	response = requests.get(url)
	soup = BeautifulSoup(response.text, 'html.parser')

	product_list = soup.find_all('a', href=True)

	for product in product_list:

	product_href = product['href']
	if '/product/' in product_href:
	product_name = product.find('div', class_='title').text.strip()
	product_price = product.find('span', class_='normal price-value').text.strip()

	# Cek apakah ada harga sebelum diskon dan persentase diskon
	discount_element = product.find('span', class_='strikeout disc-price')
	discount_percentage = ""
	original_price = ""
	if discount_element:
	discount_percentage = discount_element.find('span', class_='discount').text.strip()
	original_price = discount_element.text.replace(discount_percentage, '').strip()
	else:
	# Jika tidak ada diskon, set discount_percentage ke "0%" dan original_price ke product_price
	discount_percentage = "0%"
	original_price = product_price

	product_link = f"https://www.klikindomaret.com{product_href}"
	products.append({
	'product': product_name,
	'original_price': original_price,
	'discount_percentage': discount_percentage,
	'price': product_price,
	'link': product_link
	})

	page += 1

	time.sleep(1)
	my_bar.empty()
	return products

	#---------------------------------------------------User Interface----------------------------------------------------------------------

	# Streamlit UI
	st.title("Scraping E-Commerce")

	with st.expander("Settings :"):
	# Pilihan untuk memilih situs web
	selected_site = st.selectbox("Pilih Situs Web :", ["klikindomaret.com", "shopee.co.id(under maintenance)"])

	nama_barang = st.text_input("Masukkan Nama Barang :")
	num_items = st.number_input("Masukkan Estimasi Banyak Data :", min_value = 1, step = 1, placeholder="Type a number...")

	download_format = st.selectbox("Pilih Format Unduhan :", ["XLSX", "CSV", "JSON"])
	st.info('Tekan "Mulai Scraping" kembali jika tampilan menghilang ', icon="ℹ️")

	# Variabel tersembunyi untuk menyimpan hasil scraping
	hidden_data = []

	scraping_done = False # Tambahkan variabel ini

	if selected_site == "klikindomaret.com":
	if st.button("Mulai Scraping"):
	if not nama_barang:
	st.error("Mohon isi Nama Barang.")
	else:
	scraped_products = scrape_e_commerce(nama_barang, num_items)
	hidden_data = scraped_products # Simpan data ke dalam variabel tersembunyi
	scraping_done = True # Set scraping_done menjadi True

	if selected_site == "shopee.co.id(under maintenance)":
	st.error("Sedang dalam pengembangan. Silahkan pilih situs yang lain")





	# Simpan DataFrame ke dalam file
	output_file = f"scraped_{nama_barang}.xlsx"
	output_file_csv = f"scraped_{nama_barang}.csv"
	output_file_json = f"scraped_{nama_barang}.json"


	#---------------------------------------------------Download File & Hasil Scraping----------------------------------------------------------------------

	# Tampilkan hasil scraping
	if scraping_done:
	if hidden_data:
	# Menampilkan hasil sentimen dalam kotak yang dapat diperluas
	with st.expander(f"Hasil Scraping {selected_site} :"):
	st.write(pd.DataFrame(scraped_products))
	if download_format == "XLSX":
	df = pd.DataFrame(scraped_products)
	df.to_excel(output_file, index=False)
	st.download_button(label=f"Unduh XLSX ({len(hidden_data)} data)", data=open(output_file, "rb").read(), key="xlsx_download", file_name=output_file)
	elif download_format == "CSV":
	df = pd.DataFrame(scraped_products)
	csv = df.to_csv(index=False)
	st.download_button(label=f"Unduh CSV ({len(hidden_data)} data)", data=csv, key="csv_download", file_name=output_file_csv)
	elif download_format == "JSON":
	json_data = pd.DataFrame(scraped_products).to_json(orient="records")
	st.download_button(label=f"Unduh JSON ({len(hidden_data)} data)", data=json_data, key="json_download", file_name=output_file_json)
	elif not hidden_data:
	st.warning(f"Tidak ada data pada query '{query}'", icon="⚠️")

	if not scraping_done:
	st.write("Tidak ada data untuk diunduh.")

	st.divider()
	github_link = "https://github.com/naufalnashif/"
	st.markdown(f"GitHub: [{github_link}]({github_link})")
	instagram_link = "https://www.instagram.com/naufal.nashif/"
	st.markdown(f"Instagram: [{instagram_link}]({instagram_link})")
	st.write('Terima kasih telah mencoba demo ini!')