Spaces:

naufalnashif
/

sentiment-analysis-ensemble-model

Sleeping

App Files Files Community

naufalnashif commited on Nov 18, 2023

Commit

6f065f8

•

1 Parent(s): 8545923

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -28

app.py CHANGED Viewed

@@ -58,35 +58,34 @@ def clean_text(text):
     return text
-# Membaca kamus kata gaul Salsabila
-kamus_path = '_json_colloquial-indonesian-lexicon (1).txt'  # Ganti dengan path yang benar
-with open(kamus_path) as f:
-    data = f.read()
-lookp_dict = json.loads(data)
-# Dict kata gaul saya sendiri yang tidak masuk di dict Salsabila
-kamus_sendiri_path = 'kamus_gaul_custom.txt'
-with open(kamus_sendiri_path) as f:
-    kamus_sendiri = f.read()
-kamus_gaul_baru = json.loads(kamus_sendiri)
-# Menambahkan dict kata gaul baru ke kamus yang sudah ada
-lookp_dict.update(kamus_gaul_baru)
 # Fungsi untuk normalisasi kata gaul
 @st.cache_data
 def normalize_slang(text, slang_dict):
     words = text.split()
     normalized_words = [slang_dict.get(word, word) for word in words]
     return ' '.join(normalized_words)
 #---------------------------------------------------NLTK Remove Stopwords----------------------------------------------------------------------
-# Inisialisasi stopwords bahasa Indonesia
-nltk.download("stopwords")
-stop_words = set(stopwords.words("indonesian"))
 def remove_stopwords(text, stop_words):
     # Pecah teks menjadi kata-kata
     words = text.split()
@@ -95,15 +94,14 @@ def remove_stopwords(text, stop_words):
     return " ".join(words)
 #---------------------------------------------------TFIDF----------------------------------------------------------------------
-# Fungsi untuk ekstraksi fitur TF-IDF
-def extract_tfidf_features(texts, tfidf_vectorizer):
-    tfidf_matrix = tfidf_vectorizer.transform(texts)
-    return tfidf_matrix
 # Memuat model TF-IDF dengan joblib (pastikan path-nya benar)
 tfidf_model_path = 'X_tfidf_model.joblib'
 tfidf_vectorizer = joblib.load(tfidf_model_path)
 #---------------------------------------------------Milih Model----------------------------------------------------------------------
 # Fungsi untuk memilih model berdasarkan pilihan pengguna
@@ -125,8 +123,8 @@ def select_sentiment_model(selected_model):
 # Fungsi untuk prediksi sentimen
-def predict_sentiment(text, model, tfidf_vectorizer, slang_dict):
     # Tahap-1: Membersihkan dan normalisasi teks
     cleaned_text = clean_text(text)
     norm_slang_text = normalize_slang(cleaned_text, slang_dict)
@@ -142,7 +140,7 @@ def predict_sentiment(text, model, tfidf_vectorizer, slang_dict):
     sentiment_label = labels[int(sentiment)]
     return sentiment_label
 def get_emoticon(sentiment):
     if sentiment == "Positif":
         emoticon = "😄"  # Emotikon untuk sentimen positif
@@ -153,6 +151,7 @@ def get_emoticon(sentiment):
     return emoticon
 def buat_chart(df, target_year):
     target_year = int(target_year)
     st.write(f"Bar Chart Tahun {target_year}:")
@@ -216,6 +215,7 @@ def buat_chart(df, target_year):
     )
 # Fungsi untuk membuat tautan unduhan
 def get_table_download_link(df, download_format):
     if download_format == "XLSX":
         df.to_excel("hasil_sentimen.xlsx", index=False)

     return text
 # Fungsi untuk normalisasi kata gaul
 @st.cache_data
 def normalize_slang(text, slang_dict):
+    # Membaca kamus kata gaul Salsabila
+    kamus_path = '_json_colloquial-indonesian-lexicon (1).txt'  # Ganti dengan path yang benar
+    with open(kamus_path) as f:
+        data = f.read()
+    lookp_dict = json.loads(data)
+    # Dict kata gaul saya sendiri yang tidak masuk di dict Salsabila
+    kamus_sendiri_path = 'kamus_gaul_custom.txt'
+    with open(kamus_sendiri_path) as f:
+        kamus_sendiri = f.read()
+    kamus_gaul_baru = json.loads(kamus_sendiri)
+    # Menambahkan dict kata gaul baru ke kamus yang sudah ada
+    lookp_dict.update(kamus_gaul_baru)
     words = text.split()
     normalized_words = [slang_dict.get(word, word) for word in words]
     return ' '.join(normalized_words)
 #---------------------------------------------------NLTK Remove Stopwords----------------------------------------------------------------------
+@st.cache_data
 def remove_stopwords(text, stop_words):
+    nltk.download("stopwords")
+    stop_words = set(stopwords.words("indonesian"))
     # Pecah teks menjadi kata-kata
     words = text.split()
     return " ".join(words)
 #---------------------------------------------------TFIDF----------------------------------------------------------------------
 # Memuat model TF-IDF dengan joblib (pastikan path-nya benar)
 tfidf_model_path = 'X_tfidf_model.joblib'
 tfidf_vectorizer = joblib.load(tfidf_model_path)
+# Fungsi untuk ekstraksi fitur TF-IDF
+#@st.cache_data
+#def extract_tfidf_features(texts, _tfidf_vectorizer):
+#    tfidf_matrix = tfidf_vectorizer.transform(texts)
+#    return tfidf_matrix
 #---------------------------------------------------Milih Model----------------------------------------------------------------------
 # Fungsi untuk memilih model berdasarkan pilihan pengguna
 # Fungsi untuk prediksi sentimen
+@st.cache_data
+def predict_sentiment(text, _model, _tfidf_vectorizer, slang_dict):
     # Tahap-1: Membersihkan dan normalisasi teks
     cleaned_text = clean_text(text)
     norm_slang_text = normalize_slang(cleaned_text, slang_dict)
     sentiment_label = labels[int(sentiment)]
     return sentiment_label
+@st.cache_data
 def get_emoticon(sentiment):
     if sentiment == "Positif":
         emoticon = "😄"  # Emotikon untuk sentimen positif
     return emoticon
+@st.cache_data
 def buat_chart(df, target_year):
     target_year = int(target_year)
     st.write(f"Bar Chart Tahun {target_year}:")
     )
 # Fungsi untuk membuat tautan unduhan
+@st.cache_data
 def get_table_download_link(df, download_format):
     if download_format == "XLSX":
         df.to_excel("hasil_sentimen.xlsx", index=False)