Spaces:

naufalnashif
/

sentiment-analysis-ensemble-model

Sleeping

App Files Files Community

naufalnashif commited on Nov 17, 2023

Commit

222b841

1 Parent(s): 207cbc3

Update app.py

Browse files

Files changed (1) hide show

app.py +86 -81

app.py CHANGED Viewed

@@ -12,14 +12,8 @@ import matplotlib.pyplot as plt
 import seaborn as sns
 from wordcloud import WordCloud
-# Set judul situs web
-st.set_page_config(page_title="naufalnashif-ML")
-# Judul
-st.title("Aplikasi ML Analisis Sentimen based on data Biskita Transpakuan")
 # Fungsi untuk membersihkan teks dengan ekspresi reguler
 def clean_text(text):
     # Tahap-1: Menghapus karakter non-ASCII
     text = re.sub(r'[^\x00-\x7F]+', '', text)
@@ -75,12 +69,14 @@ kamus_gaul_baru = json.loads(kamus_sendiri)
 lookp_dict.update(kamus_gaul_baru)
 # Fungsi untuk normalisasi kata gaul
 def normalize_slang(text, slang_dict):
     words = text.split()
     normalized_words = [slang_dict.get(word, word) for word in words]
     return ' '.join(normalized_words)
 # Fungsi untuk ekstraksi fitur TF-IDF
 def extract_tfidf_features(texts, tfidf_vectorizer):
     tfidf_matrix = tfidf_vectorizer.transform(texts)
     return tfidf_matrix
@@ -112,8 +108,8 @@ def select_sentiment_model(selected_model):
 # Memilih model sentimen berdasarkan pilihan pengguna
 sentiment_model = select_sentiment_model(selected_model)
 # Fungsi untuk prediksi sentimen
 def predict_sentiment(text, model, tfidf_vectorizer, slang_dict):
     # Tahap-1: Membersihkan dan normalisasi teks
     cleaned_text = clean_text(text)
@@ -150,6 +146,12 @@ def get_table_download_link(df, download_format):
         csv = df.to_csv(index=False)
         return f'<a href="data:file/csv;base64,{b64encode(csv.encode()).decode()}" download="hasil_sentimen.csv">Unduh File CSV</a>'
 # Pilihan input teks manual atau berkas XLSX
 input_option = st.radio("Pilih metode input:", ("Teks Manual", "Unggah Berkas XLSX"))
@@ -171,7 +173,7 @@ else:
 # Analisis sentimen
 results = []
 if input_option == "Teks Manual" and user_input:
     # Pisahkan teks yang dimasukkan pengguna menjadi baris-baris terpisah
     user_texts = user_input.split('\n')
@@ -181,6 +183,7 @@ if input_option == "Teks Manual" and user_input:
         cleaned_text = clean_text(text)
         norm_slang_text = normalize_slang(cleaned_text, lookp_dict)
         results.append((text, cleaned_text, norm_slang_text, sentiment_label, emoticon))
 elif input_option == "Unggah Berkas XLSX" and uploaded_file is not None:
     if 'Text' in df.columns:
@@ -190,81 +193,83 @@ elif input_option == "Unggah Berkas XLSX" and uploaded_file is not None:
             cleaned_text = clean_text(text)
             norm_slang_text = normalize_slang(cleaned_text, lookp_dict)
             results.append((text, cleaned_text, norm_slang_text, sentiment_label, emoticon))
     else:
         st.warning("Berkas XLSX harus memiliki kolom bernama 'Text' untuk analisis sentimen.")
-# Membagi tampilan menjadi dua kolom
-columns = st.columns(2)
-# Kolom pertama untuk Word Cloud
-with columns[0]:
     if results:
-        all_texts = [result[2] for result in results if result[2] is not None and not pd.isna(result[2])]
-        all_texts = " ".join(all_texts)
-        st.subheader("Word Cloud")
-        if all_texts:
-            wordcloud = WordCloud(width=800, height=660, background_color='white',
-                                  colormap='Purples',   # Warna huruf
-                                  contour_color='black',  # Warna kontur
-                                  contour_width=2,       # Lebar kontur
-                                  mask=None,             # Gunakan mask untuk bentuk kustom
-                                  ).generate(all_texts)
-            st.image(wordcloud.to_array())
-        else:
-            st.write("Tidak ada data untuk ditampilkan dalam Word Cloud.")
-# Kolom kedua untuk Bar Chart
-with columns[1]:
-    st.subheader("Chart")
-    if results:
-        df_results = pd.DataFrame(results, columns=["Teks", "Cleaned Text", "Norm Text", "Hasil Analisis Sentimen", "Emotikon"])
-        sns.set_style("whitegrid")
-        # Menyiapkan label kelas
-        class_labels = ["Negatif", "Netral", "Positif"]
-        # Menghitung nilai hitungan per label
-        value_counts = df_results["Hasil Analisis Sentimen"].value_counts()
-        # Mengurutkan nilai hitungan berdasarkan label
-        value_counts = value_counts.reindex(class_labels)
-        fig, ax = plt.subplots()  # Buat objek Figure
-        sns.barplot(x=value_counts.index, y=value_counts.values, ax=ax)  # Gunakan ax= untuk plot
-        plt.xticks(rotation=45)
-        st.pyplot(fig)  # Tampilkan plot menggunakan st.pyplot(fig)
-# Menampilkan hasil analisis sentimen dalam kotak yang dapat diperluas
-with st.expander("Hasil Analisis Sentimen"):
-    # Tampilkan tabel hasil analisis sentimen
-    st.write(pd.DataFrame(results, columns=["Teks", "Cleaned Text", "Norm Text", "Hasil Analisis Sentimen", "Emotikon"]))
-# Tautan untuk mengunduh hasil dalam format XLSX atau CSV
-st.subheader("Unduh Hasil")
-download_format = st.selectbox("Pilih format unduhan:", ["XLSX", "CSV"])
-if results:
-    if download_format == "XLSX":
-        # Simpan DataFrame ke dalam file XLSX
-        df = pd.DataFrame(results, columns=["Teks", "Cleaned Text", "Norm Text", "Hasil Analisis Sentimen", "Emotikon"])
-        df.to_excel("hasil_sentimen.xlsx", index=False)
-        # Tampilkan tombol unduh XLSX
-        st.download_button(label="Unduh XLSX", data=open("hasil_sentimen.xlsx", "rb").read(), key="xlsx_download", file_name="hasil_sentimen.xlsx")
-    else:  # Jika CSV
-        # Simpan DataFrame ke dalam file CSV
-        df = pd.DataFrame(results, columns=["Teks", "Cleaned Text", "Norm Text", "Hasil Analisis Sentimen", "Emotikon"])
-        csv = df.to_csv(index=False)
-        # Tampilkan tombol unduh CSV
-        st.download_button(label="Unduh CSV", data=csv, key="csv_download", file_name="hasil_sentimen.csv")
-else:
-    st.write("Tidak ada data untuk diunduh.")
 # Garis pemisah

 import seaborn as sns
 from wordcloud import WordCloud
 # Fungsi untuk membersihkan teks dengan ekspresi reguler
+@st.cache_data
 def clean_text(text):
     # Tahap-1: Menghapus karakter non-ASCII
     text = re.sub(r'[^\x00-\x7F]+', '', text)
 lookp_dict.update(kamus_gaul_baru)
 # Fungsi untuk normalisasi kata gaul
+@st.cache_data
 def normalize_slang(text, slang_dict):
     words = text.split()
     normalized_words = [slang_dict.get(word, word) for word in words]
     return ' '.join(normalized_words)
 # Fungsi untuk ekstraksi fitur TF-IDF
+@st.cache_data
 def extract_tfidf_features(texts, tfidf_vectorizer):
     tfidf_matrix = tfidf_vectorizer.transform(texts)
     return tfidf_matrix
 # Memilih model sentimen berdasarkan pilihan pengguna
 sentiment_model = select_sentiment_model(selected_model)
 # Fungsi untuk prediksi sentimen
+@st.cache_data
 def predict_sentiment(text, model, tfidf_vectorizer, slang_dict):
     # Tahap-1: Membersihkan dan normalisasi teks
     cleaned_text = clean_text(text)
         csv = df.to_csv(index=False)
         return f'<a href="data:file/csv;base64,{b64encode(csv.encode()).decode()}" download="hasil_sentimen.csv">Unduh File CSV</a>'
+# Set judul situs web
+st.set_page_config(page_title="naufalnashif-ML")
+# Judul
+st.title("Analisis Sentimen Based on Tweets Biskita Transpakuan")
 # Pilihan input teks manual atau berkas XLSX
 input_option = st.radio("Pilih metode input:", ("Teks Manual", "Unggah Berkas XLSX"))
 # Analisis sentimen
 results = []
+analisis = False
 if input_option == "Teks Manual" and user_input:
     # Pisahkan teks yang dimasukkan pengguna menjadi baris-baris terpisah
     user_texts = user_input.split('\n')
         cleaned_text = clean_text(text)
         norm_slang_text = normalize_slang(cleaned_text, lookp_dict)
         results.append((text, cleaned_text, norm_slang_text, sentiment_label, emoticon))
+        analisis = True
 elif input_option == "Unggah Berkas XLSX" and uploaded_file is not None:
     if 'Text' in df.columns:
             cleaned_text = clean_text(text)
             norm_slang_text = normalize_slang(cleaned_text, lookp_dict)
             results.append((text, cleaned_text, norm_slang_text, sentiment_label, emoticon))
+            analisis = True
     else:
         st.warning("Berkas XLSX harus memiliki kolom bernama 'Text' untuk analisis sentimen.")
+st.info('Tekan "Analysis" kemabli jika tampilan menghilang', icon = 'ⓘ')
+if results and analisis == True and st.button("Analysis"):
+    # Membagi tampilan menjadi dua kolom
+    columns = st.columns(2)
+    # Kolom pertama untuk Word Cloud
+    with columns[0]:
+        if results:
+            all_texts = [result[2] for result in results if result[2] is not None and not pd.isna(result[2])]
+            all_texts = " ".join(all_texts)
+            st.subheader("Word Cloud")
+            if all_texts:
+                wordcloud = WordCloud(width=800, height=660, background_color='white',
+                                      colormap='Purples',   # Warna huruf
+                                      contour_color='black',  # Warna kontur
+                                      contour_width=2,       # Lebar kontur
+                                      mask=None,             # Gunakan mask untuk bentuk kustom
+                                      ).generate(all_texts)
+                st.image(wordcloud.to_array())
+            else:
+                st.write("Tidak ada data untuk ditampilkan dalam Word Cloud.")
+    # Kolom kedua untuk Bar Chart
+    with columns[1]:
+        st.subheader("Chart")
+        if results:
+            df_results = pd.DataFrame(results, columns=["Teks", "Cleaned Text", "Norm Text", "Hasil Analisis Sentimen", "Emotikon"])
+            sns.set_style("whitegrid")
+            # Menyiapkan label kelas
+            class_labels = ["Negatif", "Netral", "Positif"]
+            # Menghitung nilai hitungan per label
+            value_counts = df_results["Hasil Analisis Sentimen"].value_counts()
+            # Mengurutkan nilai hitungan berdasarkan label
+            value_counts = value_counts.reindex(class_labels)
+            fig, ax = plt.subplots()  # Buat objek Figure
+            sns.barplot(x=value_counts.index, y=value_counts.values, ax=ax)  # Gunakan ax= untuk plot
+            plt.xticks(rotation=45)
+            st.pyplot(fig)  # Tampilkan plot menggunakan st.pyplot(fig)
+    # Menampilkan hasil analisis sentimen dalam kotak yang dapat diperluas
+    with st.expander("Hasil Analisis Sentimen"):
+        # Tampilkan tabel hasil analisis sentimen
+        st.write(pd.DataFrame(results, columns=["Teks", "Cleaned Text", "Norm Text", "Hasil Analisis Sentimen", "Emotikon"]))
+    # Tautan untuk mengunduh hasil dalam format XLSX atau CSV
+    st.subheader("Unduh Hasil")
+    download_format = st.selectbox("Pilih format unduhan:", ["XLSX", "CSV"])
     if results:
+        if download_format == "XLSX":
+            # Simpan DataFrame ke dalam file XLSX
+            df = pd.DataFrame(results, columns=["Teks", "Cleaned Text", "Norm Text", "Hasil Analisis Sentimen", "Emotikon"])
+            df.to_excel("hasil_sentimen.xlsx", index=False)
+            # Tampilkan tombol unduh XLSX
+            st.download_button(label="Unduh XLSX", data=open("hasil_sentimen.xlsx", "rb").read(), key="xlsx_download", file_name="hasil_sentimen.xlsx")
+        else:  # Jika CSV
+            # Simpan DataFrame ke dalam file CSV
+            df = pd.DataFrame(results, columns=["Teks", "Cleaned Text", "Norm Text", "Hasil Analisis Sentimen", "Emotikon"])
+            csv = df.to_csv(index=False)
+            # Tampilkan tombol unduh CSV
+            st.download_button(label="Unduh CSV", data=csv, key="csv_download", file_name="hasil_sentimen.csv")
+    else:
+        st.write("Tidak ada data untuk diunduh.")
 # Garis pemisah