Spaces:

snoop2head
/

privacy-filtering-ner

Sleeping

App Files Files Community

snoop2head commited on Nov 29, 2022

Commit

498ff0a

1 Parent(s): 4c2695f

update demo(before postprocessing

Browse files

Files changed (2) hide show

app.py +142 -0
requirements.txt +5 -0

app.py ADDED Viewed

	@@ -0,0 +1,142 @@

+# -*- coding: utf-8 -*-
+import json
+import pandas as pd
+import numpy as np
+import torch
+import streamlit as st
+from transformers import AutoTokenizer, AutoModelForTokenClassification
+st.set_page_config(
+    page_title="NER 기반 민감정보 식별", layout="wide", initial_sidebar_state="expanded"
+)
+@st.cache
+def load_model(model_name):
+    model = AutoModelForTokenClassification.from_pretrained(model_name)
+    return model
+st.title("🔒 NER 기반 민감정보 식별기")
+st.write("문장을 입력하시고, CTRL+Enter(CMD+Enter)를 누르세요 🤗")
+tokenizer = AutoTokenizer.from_pretrained("klue/roberta-base")
+model = load_model("QuoQA-NLP/konec-privacy")
+model.eval()
+default_value = "성욱님, 당뇨 검사한 거 결과 나오셨어요."
+src_text = st.text_area(
+    "검사하고 싶은 문장을 입력하세요.",
+    default_value,
+    height=300,
+    max_chars=150,
+)
+def yield_df(default_value):
+  tokenized = tokenizer.encode(default_value)
+  print(tokenized)
+  output = model(input_ids=torch.tensor([tokenized]))
+  logits = output.logits
+  print(logits.size())
+  # get prediction for each tokens for 17 classes
+  pred = logits.argmax(-1).squeeze().numpy()
+  print(pred)
+  class_map = {
+  "B-ADD": 0,
+  "I-ADD": 1,
+  "B-DN": 2,
+  "I-DN": 3,
+  "B-DT": 4,
+  "I-DT": 5,
+  "B-LC": 6,
+  "I-LC": 7,
+  "B-OG": 8,
+  "I-OG": 9,
+  "B-PS": 10,
+  "I-PS": 11,
+  "B-QT": 12,
+  "I-QT": 13,
+  "B-RL": 14,
+  "I-RL": 15,
+  "O": 16
+  }
+  class_map_inverted = {v: k for k, v in class_map.items()}
+  # decode prediction
+  class_decoded = [class_map_inverted[p] for p in pred]
+  print(class_decoded)
+  label_map = {
+  "ADD": 0,
+  "DN": "질환 정보",
+  "DT": "날짜 정보",
+  "LC": "주소 정보(지역, 이메일 주소 등)",
+  "OG": "기관 정보",
+  "PS": "인명/별명 정보",
+  "QT": "수량 정보",
+  "RL": "관계 정보",
+  "O": "비민감 정보"
+  }
+  # pair tokens with prediction
+  tokenized_text = tokenizer.convert_ids_to_tokens(tokenized)
+  list_result = []
+  for token, pred in zip(tokenized_text, class_decoded):
+    splitted_pred = pred.split("-")
+    pred_class = splitted_pred[-1]
+    label = label_map[pred_class]
+    # print with 10 characters with spaces divided with |
+    result = {"형태소":token, "예상 라벨":label}
+    list_result.append(result)
+  df = pd.DataFrame(list_result)
+  # remove first and last row
+  df = df.iloc[1:-1]
+  st.table(df)
+  return df
+def convert_df(df:pd.DataFrame):
+     return df.to_csv(index=False).encode('utf-8')
+def convert_json(df:pd.DataFrame):
+    result = df.to_json(orient="index")
+    parsed = json.loads(result)
+    json_string = json.dumps(parsed)
+    #st.json(json_string, expanded=True)
+    return json_string
+if src_text == "":
+    st.warning("Please **enter text** for translation")
+else:
+    st.markdown("### 분류된 단어들")
+    st.header("")
+    cs, c1, c2, c3, cLast = st.columns([0.75, 1.5, 1.5, 1.5, 0.75])
+    df_result = yield_df(src_text)
+    with c1:
+        #csvbutton = download_button(results, "results.csv", "📥 Download .csv")
+        csvbutton = st.download_button(label="📥 csv로 다운로드", data=convert_df(df_result), file_name= "results.csv", mime='text/csv', key='csv')
+    with c2:
+        #textbutton = download_button(results, "results.txt", "📥 Download .txt")
+        textbutton = st.download_button(label="📥 txt로 다운로드", data=convert_df(df_result), file_name= "results.text", mime='text/plain',  key='text')
+    with c3:
+        #jsonbutton = download_button(results, "results.json", "📥 Download .json")
+        jsonbutton = st.download_button(label="📥 json으로 다운로드", data=convert_json(df_result), file_name= "results.json", mime='application/json',  key='json')
+with st.expander("(주) 쿼카에이아이 데모 사사 관련", expanded=True):
+  st.write(
+      """
+      해당 데모는 2022년도 과학기술정보통신부의 재원으로 정보통신산업진흥원의 지원을 받아 수행된 연구임
+      (과제번호: A1504-22-1005)
+      """
+  )

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+transformers
+streamlit
+torch
+pandas
+numpy