Spaces:
Sleeping
Sleeping
sigmadream
commited on
Commit
โข
fbdc62b
1
Parent(s):
ee9cdb8
Update app.py
Browse files
app.py
CHANGED
@@ -13,11 +13,12 @@ id2label = {0: "NEGATIVE", 1: "POSITIVE"}
|
|
13 |
label2id = {"NEGATIVE": 0, "POSITIVE": 1}
|
14 |
|
15 |
|
16 |
-
title = "
|
17 |
-
description = "์ํํ์ ์
๋ ฅํ์ฌ ๊ธ์ ์ ์ธ์ง ๋ถ์ ์ ์ธ์ง๋ฅผ ๋ถ๋ฅํ๋
|
18 |
-
|
19 |
-
|
20 |
-
|
|
|
21 |
class LanguageIdentification:
|
22 |
def __init__(self):
|
23 |
pretrained_lang_model = "./lid.176.ftz"
|
@@ -40,6 +41,7 @@ def tokenized_data(tokenizer, inputs):
|
|
40 |
truncation=True)
|
41 |
|
42 |
|
|
|
43 |
examples = []
|
44 |
df = pd.read_csv('examples.csv', sep='\t', index_col='Unnamed: 0')
|
45 |
np.random.seed(100)
|
@@ -148,29 +150,46 @@ def builder(Lang, Text):
|
|
148 |
return id2label[prediction.item()]
|
149 |
|
150 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
151 |
with gr.Blocks() as demo1:
|
152 |
gr.Markdown(
|
153 |
"""
|
154 |
<h1 align="center">
|
155 |
-
|
156 |
</h1>
|
157 |
""")
|
158 |
|
159 |
gr.Markdown(
|
160 |
"""
|
161 |
-
์ํ ๋ฆฌ๋ทฐ๋ฅผ ์
๋ ฅํ๋ฉด,
|
162 |
-
์์ด์ ํ๊ธ์ ์ง์ํ๋ฉฐ, ์ธ์ด๋ฅผ ์ง์ ์ ํํ ์๋, ํน์ ๋ชจ๋ธ์ด ์ธ์ด๊ฐ์ง๋ฅผ ์ง์ ํ๋๋ก ํ ์
|
163 |
๋ฆฌ๋ทฐ๋ฅผ ์
๋ ฅํ๋ฉด, (1) ๊ฐ์ง๋ ์ธ์ด, (2) ๊ธ์ ๋ฆฌ๋ทฐ์ผ ํ๋ฅ ๊ณผ ๋ถ์ ๋ฆฌ๋ทฐ์ผ ํ๋ฅ , (3) ์
๋ ฅ๋ ๋ฆฌ๋ทฐ์ ์ด๋ ๋จ์ด๊ฐ ๊ธ์ /๋ถ์ ๊ฒฐ์ ์ ์ํฅ์ ์ฃผ์๋์ง \
|
164 |
-
(๊ธ์ ์ผ ๊ฒฝ์ฐ ๋นจ๊ฐ์, ๋ถ์ ์ผ ๊ฒฝ์ฐ ํ๋์)๋ฅผ ํ์ธํ ์
|
165 |
""")
|
166 |
|
167 |
with gr.Accordion(label="๋ชจ๋ธ์ ๋ํ ์ค๋ช
( ์ฌ๊ธฐ๋ฅผ ํด๋ฆญ ํ์์ค. )", open=False):
|
168 |
gr.Markdown(
|
169 |
"""
|
170 |
-
์์ด ๋ชจ๋ธ์ bert-base-uncased ๊ธฐ๋ฐ์ผ๋ก, ์์ด ์ํ ๋ฆฌ๋ทฐ ๋ถ์ ๋ฐ์ดํฐ์
์ธ SST-2๋ก ํ์ต ๋ฐ
|
171 |
-
ํ๊ธ ๋ชจ๋ธ์ klue/roberta-base ๊ธฐ๋ฐ์ด๋ค. ๊ธฐ์กด ํ๊ธ ์ํ ๋ฆฌ๋ทฐ ๋ถ์ ๋ฐ์ดํฐ์
์ด ์กด์ฌํ์ง ์์, ๋ค์ด๋ฒ ์ํ์ ๋ฆฌ๋ทฐ๋ฅผ ํฌ๋กค๋งํด์ ์ํ ๋ฆฌ๋ทฐ ๋ถ์ ๋ฐ์ดํฐ์
์ ์ ์ํ๊ณ , ์ด๋ฅผ ์ด์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ต ๋ฐ
|
172 |
-
์์ด ๋ชจ๋ธ์ SST-2์์ 92.8%, ํ๊ธ ๋ชจ๋ธ์ ๋ค์ด๋ฒ ์ํ ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
์์ 94%์ ์ ํ๋๋ฅผ
|
173 |
-
์ธ์ด๊ฐ์ง๋ fasttext์ language detector๋ฅผ ์ฌ์ฉํ์๋ค. ๋ฆฌ๋ทฐ์ ๋จ์ด๋ณ ์ํฅ๋ ฅ์, ๋จ์ด ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ๋ฃ์์ ๋ ๊ฒฐ๊ณผ๊ฐ ๊ธ์ ์ผ๋ก ๋์ค๋์ง ๋ถ์ ์ผ๋ก ๋์ค๋์ง๋ฅผ ๋ฐํ์ผ๋ก
|
174 |
""")
|
175 |
|
176 |
with gr.Row():
|
|
|
13 |
label2id = {"NEGATIVE": 0, "POSITIVE": 1}
|
14 |
|
15 |
|
16 |
+
title = "์ํ ๋ฆฌ๋ทฐ ์ ์ ํ๋ณ๊ธฐ"
|
17 |
+
description = "์ํํ์ ์
๋ ฅํ์ฌ ๊ธ์ ์ ์ธ์ง ๋ถ์ ์ ์ธ์ง๋ฅผ ๋ถ๋ฅํ๋ ํ๋ก๊ทธ๋จ์
๋๋ค. \
|
18 |
+
ํ๊ตญ์ด ๋ฒ์ ๊ณผ ์์ด ๋ฒ์ ์ค์์ ์ ํํ ์ ์์ต๋๋ค. \
|
19 |
+
ํ๊ตญ์ด์ธ์ง ์์ด์ธ์ง ํ๋จํ๊ณ ์์ธกํด์ฃผ๋ ""Default""๋ผ๋ ๋ฒ์ ๋ ์ ๊ณตํฉ๋๋ค."
|
20 |
+
|
21 |
+
|
22 |
class LanguageIdentification:
|
23 |
def __init__(self):
|
24 |
pretrained_lang_model = "./lid.176.ftz"
|
|
|
41 |
truncation=True)
|
42 |
|
43 |
|
44 |
+
|
45 |
examples = []
|
46 |
df = pd.read_csv('examples.csv', sep='\t', index_col='Unnamed: 0')
|
47 |
np.random.seed(100)
|
|
|
150 |
return id2label[prediction.item()]
|
151 |
|
152 |
|
153 |
+
# demo3 = gr.Interface.load("models/mdj1412/movie_review_score_discriminator_eng", inputs="text", outputs="text",
|
154 |
+
# title=title, theme="peach",
|
155 |
+
# allow_flagging="auto",
|
156 |
+
# description=description, examples=examples)
|
157 |
+
|
158 |
+
|
159 |
+
|
160 |
+
# demo = gr.Interface(builder, inputs=[gr.inputs.Dropdown(['Default', 'Eng', 'Kor']), gr.Textbox(placeholder="๋ฆฌ๋ทฐ๋ฅผ ์
๋ ฅํ์์ค.")],
|
161 |
+
# outputs=[ gr.Label(num_top_classes=3, label='Lang'),
|
162 |
+
# gr.Label(num_top_classes=2, label='Result'),
|
163 |
+
# gr.HighlightedText(label="Analysis", combine_adjacent=False)
|
164 |
+
# .style(color_map={"+++": "#CF0000", "++": "#FF3232", "+": "#FFD4D4", "---": "#0004FE", "--": "#4C47FF", "-": "#BEBDFF"}) ],
|
165 |
+
# # outputs='label',
|
166 |
+
# title=title, description=description, examples=examples)
|
167 |
+
|
168 |
+
|
169 |
+
|
170 |
with gr.Blocks() as demo1:
|
171 |
gr.Markdown(
|
172 |
"""
|
173 |
<h1 align="center">
|
174 |
+
์ํ ๋ฆฌ๋ทฐ ์ ์ ํ๋ณ๊ธฐ
|
175 |
</h1>
|
176 |
""")
|
177 |
|
178 |
gr.Markdown(
|
179 |
"""
|
180 |
+
์ํ ๋ฆฌ๋ทฐ๋ฅผ ์
๋ ฅํ๋ฉด, ๋ฆฌ๋ทฐ๊ฐ ๊ธ์ ์ธ์ง ๋ถ์ ์ธ์ง ํ๋ณํด์ฃผ๋ ๋ชจ๋ธ์ด๋ค. \
|
181 |
+
์์ด์ ํ๊ธ์ ์ง์ํ๋ฉฐ, ์ธ์ด๋ฅผ ์ง์ ์ ํํ ์๋, ํน์ ๋ชจ๋ธ์ด ์ธ์ด๊ฐ์ง๋ฅผ ์ง์ ํ๋๋ก ํ ์ ์๋ค.
|
182 |
๋ฆฌ๋ทฐ๋ฅผ ์
๋ ฅํ๋ฉด, (1) ๊ฐ์ง๋ ์ธ์ด, (2) ๊ธ์ ๋ฆฌ๋ทฐ์ผ ํ๋ฅ ๊ณผ ๋ถ์ ๋ฆฌ๋ทฐ์ผ ํ๋ฅ , (3) ์
๋ ฅ๋ ๋ฆฌ๋ทฐ์ ์ด๋ ๋จ์ด๊ฐ ๊ธ์ /๋ถ์ ๊ฒฐ์ ์ ์ํฅ์ ์ฃผ์๋์ง \
|
183 |
+
(๊ธ์ ์ผ ๊ฒฝ์ฐ ๋นจ๊ฐ์, ๋ถ์ ์ผ ๊ฒฝ์ฐ ํ๋์)๋ฅผ ํ์ธํ ์ ์๋ค.
|
184 |
""")
|
185 |
|
186 |
with gr.Accordion(label="๋ชจ๋ธ์ ๋ํ ์ค๋ช
( ์ฌ๊ธฐ๋ฅผ ํด๋ฆญ ํ์์ค. )", open=False):
|
187 |
gr.Markdown(
|
188 |
"""
|
189 |
+
์์ด ๋ชจ๋ธ์ bert-base-uncased ๊ธฐ๋ฐ์ผ๋ก, ์์ด ์ํ ๋ฆฌ๋ทฐ ๋ถ์ ๋ฐ์ดํฐ์
์ธ SST-2๋ก ํ์ต ๋ฐ ํ๊ฐ๋์๋ค.
|
190 |
+
ํ๊ธ ๋ชจ๋ธ์ klue/roberta-base ๊ธฐ๋ฐ์ด๋ค. ๊ธฐ์กด ํ๊ธ ์ํ ๋ฆฌ๋ทฐ ๋ถ์ ๋ฐ์ดํฐ์
์ด ์กด์ฌํ์ง ์์, ๋ค์ด๋ฒ ์ํ์ ๋ฆฌ๋ทฐ๋ฅผ ํฌ๋กค๋งํด์ ์ํ ๋ฆฌ๋ทฐ ๋ถ์ ๋ฐ์ดํฐ์
์ ์ ์ํ๊ณ , ์ด๋ฅผ ์ด์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ต ๋ฐ ํ๊ฐํ์๋ค.
|
191 |
+
์์ด ๋ชจ๋ธ์ SST-2์์ 92.8%, ํ๊ธ ๋ชจ๋ธ์ ๋ค์ด๋ฒ ์ํ ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
์์ 94%์ ์ ํ๋๋ฅผ ๊ฐ์ง๋ค (test set ๊ธฐ์ค).
|
192 |
+
์ธ์ด๊ฐ์ง๋ fasttext์ language detector๋ฅผ ์ฌ์ฉํ์๋ค. ๋ฆฌ๋ทฐ์ ๋จ์ด๋ณ ์ํฅ๋ ฅ์, ๋จ์ด ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ๋ฃ์์ ๋ ๊ฒฐ๊ณผ๊ฐ ๊ธ์ ์ผ๋ก ๋์ค๋์ง ๋ถ์ ์ผ๋ก ๋์ค๋์ง๋ฅผ ๋ฐํ์ผ๋ก ์ธก์ ํ์๋ค.
|
193 |
""")
|
194 |
|
195 |
with gr.Row():
|