Spaces:

symanto
/

generation_evaluator

Sleeping

App Files Files Community

José Ángel González commited on Sep 7, 2024

Commit

cb18316

1 Parent(s): e315877

add examples

Browse files

Files changed (3) hide show

generation_evaluator.py +15 -14
gradio_tst.py +12 -2
requirements.txt +0 -1

generation_evaluator.py CHANGED Viewed

@@ -1,10 +1,10 @@
 import datasets
 import evaluate
 import numpy as np
 import spacy
 import torch
 from alignscore import AlignScore
-import nltk
 _CITATION = """\
 @inproceedings{lin-2004-rouge,
@@ -150,8 +150,8 @@ class GenerationEvaluator(evaluate.Metric):
             spacy.cli.download("en_core_web_sm")
         # Download punkt for AlignScore
-        nltk.download('punkt_tab')
         # Download AlignScore model and move to GPU if possible
         model_path = dl_manager.download(ALIGNSCORE_ARGS["ckpt_path"])
         ALIGNSCORE_ARGS["ckpt_path"] = model_path
@@ -160,29 +160,31 @@ class GenerationEvaluator(evaluate.Metric):
         )
         self.align_scorer = AlignScore(**ALIGNSCORE_ARGS)
     def _compute(self, predictions, references):
         # Compute ROUGE
-        rouge_score = evaluate.load("rouge")
-        rouge_results = rouge_score.compute(
             predictions=predictions, references=references
         )
         # Compute BLEU
-        bleu_score = evaluate.load("bleu")
-        bleu_results = bleu_score.compute(
             predictions=predictions, references=references
         )
         # Compute Exact Match
-        exact_match_score = evaluate.load("exact_match")
-        exact_match_results = exact_match_score.compute(
             predictions=predictions, references=references
         )
         # Compute BERTScore
-        bert_score = evaluate.load("bertscore")
-        bert_score_results = bert_score.compute(
             predictions=predictions, references=references, lang="en"
         )
@@ -203,8 +205,7 @@ class GenerationEvaluator(evaluate.Metric):
         )
         # Compute CHRF
-        chrf = evaluate.load("chrf")
-        chrf_results = chrf.compute(
             predictions=predictions, references=references
         )

 import datasets
 import evaluate
+import nltk
 import numpy as np
 import spacy
 import torch
 from alignscore import AlignScore
 _CITATION = """\
 @inproceedings{lin-2004-rouge,
             spacy.cli.download("en_core_web_sm")
         # Download punkt for AlignScore
+        nltk.download("punkt_tab")
         # Download AlignScore model and move to GPU if possible
         model_path = dl_manager.download(ALIGNSCORE_ARGS["ckpt_path"])
         ALIGNSCORE_ARGS["ckpt_path"] = model_path
         )
         self.align_scorer = AlignScore(**ALIGNSCORE_ARGS)
+        # Prepare scorers
+        self.rouge_scorer = evaluate.load("rouge")
+        self.bleu_scorer = evaluate.load("bleu")
+        self.exact_match_scorer = evaluate.load("exact_match")
+        self.bert_scorer = evaluate.load("bertscore")
+        self.chrf_scorer = evaluate.load("chrf")
     def _compute(self, predictions, references):
         # Compute ROUGE
+        rouge_results = self.rouge_scorer.compute(
             predictions=predictions, references=references
         )
         # Compute BLEU
+        bleu_results = self.bleu_scorer.compute(
             predictions=predictions, references=references
         )
         # Compute Exact Match
+        exact_match_results = self.exact_match_scorer.compute(
             predictions=predictions, references=references
         )
         # Compute BERTScore
+        bert_score_results = self.bert_scorer.compute(
             predictions=predictions, references=references, lang="en"
         )
         )
         # Compute CHRF
+        chrf_results = self.chrf_scorer.compute(
             predictions=predictions, references=references
         )

gradio_tst.py CHANGED Viewed

@@ -117,6 +117,15 @@ def launch_gradio_widget2(metric):
     def compute(data):
         return metric.compute(**parse_gradio_data(data, gradio_input_types))
     iface = gr.Interface(
         fn=compute,
         inputs=gr.Dataframe(
@@ -132,8 +141,9 @@ def launch_gradio_widget2(metric):
         ),
         title=f"Metric: {metric.name}",
         article=parse_readme(local_path / "README.md"),
-        # TODO: load test cases and use them to populate examples
-        # examples=[parse_test_cases(test_cases, feature_names, gradio_input_types)]
     )
     iface.launch(share=True)

     def compute(data):
         return metric.compute(**parse_gradio_data(data, gradio_input_types))
+    test_cases = [
+        {
+            "predictions": [
+                "You are so good",
+                "Madrid is the capital of Spain",
+            ],
+            "references": ["You are so bad", "Paris is the capital of France"],
+        }
+    ]
     iface = gr.Interface(
         fn=compute,
         inputs=gr.Dataframe(
         ),
         title=f"Metric: {metric.name}",
         article=parse_readme(local_path / "README.md"),
+        examples=[
+            parse_test_cases(test_cases, feature_names, gradio_input_types)
+        ],
     )
     iface.launch(share=True)

requirements.txt CHANGED Viewed

@@ -5,7 +5,6 @@ gradio
 bert_score
 rouge_score
 numpy
-git+https://github.com/huggingface/evaluate@a4bdc10c48a450b978d91389a48dbb5297835c7d
 sacrebleu
 git+https://github.com/yuh-zha/AlignScore.git
 spacy

 bert_score
 rouge_score
 numpy
 sacrebleu
 git+https://github.com/yuh-zha/AlignScore.git
 spacy