Spaces:

KevSun
/

MT_Eval

Sleeping

App Files Files Community

KevSun commited on Jul 26, 2024

Commit

6df77de

verified ·

1 Parent(s): ec6cfd9

Update app.py

Browse files

Files changed (1) hide show

app.py +61 -41

app.py CHANGED Viewed

@@ -2,74 +2,94 @@ import streamlit as st
 import sacrebleu
 from bert_score import score as bert_score
 import jieba
-import torch
-# Ensure CUDA is not used to avoid potential issues on Hugging Face Spaces
-torch.cuda.is_available = lambda : False
 def calculate_bleu(translations, references):
     return sacrebleu.corpus_bleu(translations, [references]).score
 def calculate_ter(translations, references):
     return sacrebleu.corpus_ter(translations, [references]).score
 def calculate_chrf(translations, references):
     return sacrebleu.corpus_chrf(translations, [references]).score
 def calculate_bertscore(translations, references, lang):
-    P, R, F1 = bert_score(translations, references, lang=lang, device='cpu')
     return F1.mean().item()
-def tokenize_chinese(text):
-    return ' '.join(jieba.cut(text))
 st.title("Machine Translation Quality Evaluation")
 st.write("Input the translated text and the reference translation to compute BLEU, TER, CHRF, and BERTScore metrics.")
 languages = {
-    "English": "en", "Chinese": "zh", "French": "fr", "German": "de", "Spanish": "es",
-    "Japanese": "ja", "Korean": "ko", "Arabic": "ar", "Italian": "it",
-    "Dutch": "nl", "Portuguese": "pt", "Russian": "ru"
 }
 source_lang = st.selectbox("Select Source Language", list(languages.keys()))
 target_lang = st.selectbox("Select Target Language", list(languages.keys()))
-source_lang_code = languages[source_lang]
-target_lang_code = languages[target_lang]
 translation_input = st.text_area("Translated Text", height=200)
 reference_input = st.text_area("Reference Translation", height=200)
 if st.button("Evaluate"):
     if translation_input and reference_input:
-        try:
-            # Process translation input
-            if target_lang_code == "zh":
-                translations = [tokenize_chinese(translation_input.strip())]
-            else:
-                translations = [translation_input.strip()]
-            # Process reference input
-            if target_lang_code == "zh":
-                references = [tokenize_chinese(reference_input.strip())]
-            else:
-                references = [reference_input.strip()]
-            st.write("Calculating scores...")
-            bleu_score = calculate_bleu(translations, references)
-            ter_score = calculate_ter(translations, references)
-            chrf_score = calculate_chrf(translations, references)
-            bertscore = calculate_bertscore(translations, references, target_lang_code)
-            st.write("Evaluation Scores:")
-            st.write(f"**BLEU Score:** {bleu_score:.2f}")
-            st.write(f"**TER Score:** {ter_score:.2f}")
-            st.write(f"**CHRF Score:** {chrf_score:.2f}")
-            st.write(f"**BERTScore:** {bertscore:.2f}")
-        except Exception as e:
-            st.error(f"An error occurred: {str(e)}")
     else:
         st.error("Please provide both translated text and reference translation.")

 import sacrebleu
 from bert_score import score as bert_score
 import jieba
+# Function to calculate BLEU score
 def calculate_bleu(translations, references):
     return sacrebleu.corpus_bleu(translations, [references]).score
+# Function to calculate TER score
 def calculate_ter(translations, references):
     return sacrebleu.corpus_ter(translations, [references]).score
+# Function to calculate CHRF score
 def calculate_chrf(translations, references):
     return sacrebleu.corpus_chrf(translations, [references]).score
+# Function to calculate BERTScore
 def calculate_bertscore(translations, references, lang):
+    P, R, F1 = bert_score(translations, references, lang=lang)
     return F1.mean().item()
+# Streamlit app
 st.title("Machine Translation Quality Evaluation")
 st.write("Input the translated text and the reference translation to compute BLEU, TER, CHRF, and BERTScore metrics.")
+# List of supported languages
 languages = {
+    "English": "en",
+    "Chinese": "zh",
+    "French": "fr",
+    "German": "de",
+    "Spanish": "es",
+    "Russian": "ru",
+    "Japanese": "ja",
+    "Korean": "ko",
+    "Arabic": "ar",
+    "Italian": "it",
+    "Dutch": "nl",
+    "Portuguese": "pt",
+    "Turkish": "tr",
+    "Polish": "pl",
+    "Czech": "cs",
+    "Swedish": "sv",
+    "Danish": "da",
+    "Finnish": "fi",
+    "Greek": "el",
+    "Hungarian": "hu",
+    "Indonesian": "id",
+    "Norwegian": "no",
+    "Romanian": "ro",
+    "Thai": "th",
+    "Vietnamese": "vi",
+    "Hebrew": "he",
+    "Hindi": "hi",
+    "Bengali": "bn",
+    "Tamil": "ta",
+    "Urdu": "ur",
+    "Other": "other"
 }
+# Language selection
 source_lang = st.selectbox("Select Source Language", list(languages.keys()))
 target_lang = st.selectbox("Select Target Language", list(languages.keys()))
+# Input fields for custom language codes if "Other" is selected
+source_lang_code = st.text_input("Enter Source Language Code (ISO 639-1):", value=languages[source_lang]) if source_lang == "Other" else languages[source_lang]
+target_lang_code = st.text_input("Enter Target Language Code (ISO 639-1):", value=languages[target_lang]) if target_lang == "Other" else languages[target_lang]
+# Input fields for translations and references
 translation_input = st.text_area("Translated Text", height=200)
 reference_input = st.text_area("Reference Translation", height=200)
+# Evaluate button
 if st.button("Evaluate"):
     if translation_input and reference_input:
+        translations = [translation_input.strip()]
+        references = [reference_input.strip()]
+        # Handle tokenization if necessary (e.g., for Chinese)
+        if source_lang_code == "zh" or target_lang_code == "zh":
+            translations = [' '.join(jieba.cut(text)) for text in translations]
+            references = [' '.join(jieba.cut(text)) for text in references]
+        bleu_score = calculate_bleu(translations, references)
+        ter_score = calculate_ter(translations, references)
+        chrf_score = calculate_chrf(translations, references)
+        bertscore = calculate_bertscore(translations, references, target_lang_code)
+        st.write(f"**BLEU Score:** {bleu_score:.2f}")
+        st.write(f"**TER Score:** {ter_score:.2f}")
+        st.write(f"**CHRF Score:** {chrf_score:.2f}")
+        st.write(f"**BERTScore:** {bertscore:.2f}")
     else:
         st.error("Please provide both translated text and reference translation.")