Spaces:

jason9693
/

KoreanHateSpeechClassifier

Runtime error

App Files Files Community

kevin-yang commited on Oct 25, 2021

Commit

b1e91c5

1 Parent(s): 4259675

add model cache and fix font

Browse files

Files changed (1) hide show

app.py +33 -18

app.py CHANGED Viewed

@@ -6,6 +6,8 @@ import seaborn
 import matplotlib
 import platform
 if platform.system() == "Darwin":
     print("MacOS")
     matplotlib.use('Agg')
@@ -14,20 +16,33 @@ import io
 from PIL import Image
 import matplotlib.font_manager as fm
-import util
-font_path = r'NanumGothicCoding.ttf'
-fontprop = fm.FontProperties(fname=font_path, size=18)
-plt.rcParams["font.family"] = 'NanumGothic'
 def visualize_attention(sent, attention_matrix, n_words=10):
     def draw(data, x, y, ax):
         seaborn.heatmap(data,
                         xticklabels=x, square=True, yticklabels=y, vmin=0.0, vmax=1.0,
                         cbar=False, ax=ax)
@@ -42,22 +57,27 @@ def visualize_attention(sent, attention_matrix, n_words=10):
     fig.tight_layout()
     plt.close()
     return fig
-def predict(model_name, text):
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
-    model = AutoModelForSequenceClassification.from_pretrained(model_name)
-    config = AutoConfig.from_pretrained(model_name)
-    print(config.id2label)
     tokenized_text = tokenizer([text], return_tensors='pt')
     input_tokens = tokenizer.convert_ids_to_tokens(tokenized_text.input_ids[0])
-    print(input_tokens)
     input_tokens = util.bytetokens_to_unicdode(input_tokens) if config.model_type in ['roberta', 'gpt', 'gpt2'] else input_tokens
     model.eval()
@@ -73,12 +93,7 @@ def predict(model_name, text):
 if __name__ == '__main__':
-    model_name = 'jason9693/SoongsilBERT-beep-base'
     text = '읿딴걸 홍볿글 읿랉곭 쌑젩낄고 앉앟있냩'
-    # output = predict(model_name, text)
-    # print(output)
     model_name_list = [
         'jason9693/SoongsilBERT-beep-base'
@@ -88,7 +103,7 @@ if __name__ == '__main__':
     app = gr.Interface(
         fn=predict,
         inputs=[gr.inputs.Dropdown(model_name_list, label="Model Name"), 'text'], outputs=['label', 'plot'],
-        examples = [[model_name, text]],
         title="한국어 혐오성 발화 분류기 (Korean Hate Speech Classifier)",
         description="Korean Hate Speech Classifier with Several Pretrained LM\nCurrent Supported Model:\n1. SoongsilBERT"
         )

 import matplotlib
 import platform
+from transformers.file_utils import ModelOutput
 if platform.system() == "Darwin":
     print("MacOS")
     matplotlib.use('Agg')
 from PIL import Image
 import matplotlib.font_manager as fm
+import util
+# global var
+MODEL_NAME = 'jason9693/SoongsilBERT-beep-base'
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)
+config = AutoConfig.from_pretrained(MODEL_NAME)
+MODEL_BUF = {
+    "name": MODEL_NAME,
+    "tokenizer": tokenizer,
+    "model": model,
+    "config": config
+}
+font_dir = ['./']
+for font in fm.findSystemFonts(font_dir):
+    print(font)
+    fm.fontManager.addfont(font)
+plt.rcParams["font.family"] = 'NanumGothicCoding'
 def visualize_attention(sent, attention_matrix, n_words=10):
     def draw(data, x, y, ax):
         seaborn.heatmap(data,
                         xticklabels=x, square=True, yticklabels=y, vmin=0.0, vmax=1.0,
                         cbar=False, ax=ax)
     fig.tight_layout()
     plt.close()
     return fig
+def change_model_name(name):
+    MODEL_BUF["name"] = name
+    MODEL_BUF["tokenizer"] = AutoTokenizer.from_pretrained(name)
+    MODEL_BUF["model"] = AutoModelForSequenceClassification.from_pretrained(name)
+    MODEL_BUF["config"] = AutoConfig.from_pretrained(name)
+def predict(model_name, text):
+    if model_name != MODEL_NAME:
+        change_model_name(model_name)
+    tokenizer = MODEL_BUF["tokenizer"]
+    model = MODEL_BUF["model"]
+    config = MODEL_BUF["config"]
     tokenized_text = tokenizer([text], return_tensors='pt')
     input_tokens = tokenizer.convert_ids_to_tokens(tokenized_text.input_ids[0])
     input_tokens = util.bytetokens_to_unicdode(input_tokens) if config.model_type in ['roberta', 'gpt', 'gpt2'] else input_tokens
     model.eval()
 if __name__ == '__main__':
     text = '읿딴걸 홍볿글 읿랉곭 쌑젩낄고 앉앟있냩'
     model_name_list = [
         'jason9693/SoongsilBERT-beep-base'
     app = gr.Interface(
         fn=predict,
         inputs=[gr.inputs.Dropdown(model_name_list, label="Model Name"), 'text'], outputs=['label', 'plot'],
+        examples = [[MODEL_BUF["name"], text]],
         title="한국어 혐오성 발화 분류기 (Korean Hate Speech Classifier)",
         description="Korean Hate Speech Classifier with Several Pretrained LM\nCurrent Supported Model:\n1. SoongsilBERT"
         )