Spaces:
Runtime error
Runtime error
File size: 6,678 Bytes
9d08804 0460b2c 9d08804 0d4d53f c10348d 3245b7e 9970caa 3245b7e 9970caa 3245b7e 9970caa 3245b7e abadb7c 3245b7e 8035793 3245b7e 9d08804 3245b7e 0460b2c 9d08804 3245b7e 9d08804 0460b2c 3245b7e 0460b2c 9d08804 0460b2c 4e65c30 0460b2c 4e65c30 0460b2c 4e65c30 9d08804 bd9e1b0 266bb0a 9d08804 3245b7e 1b37569 3245b7e 9d08804 0460b2c 3245b7e c10348d |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 |
import gradio as gr
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
from scipy.special import softmax
article_string = "Author: <a href=\"https://huggingface.co/ruanchaves\">Ruan Chaves Rodrigues</a>. Read more about our <a href=\"https://github.com/ruanchaves/eplm\">research on the evaluation of Portuguese language models</a>."
app_title = "Semantic Similarity (Similaridade Semântica)"
app_description = """
This app calculates the semantic similarity between two pieces of Portuguese text using multiple models. You can either introduce your own sentences by filling in "Text 1" and "Text 2" or click on one of the example pairs provided below.
(Este aplicativo calcula a similaridade semântica entre dois trechos de texto em português usando vários modelos. Introduza suas próprias frases preenchendo "Text 1" e "Text 2", ou clique em um dos pares de exemplo fornecidos abaixo.)
"""
app_examples = [
["Uma pessoa tem cabelo loiro e esvoaçante e está tocando violão.", "Um guitarrista tem cabelo loiro e esvoaçante."],
["A batata está sendo descascada por uma mulher", "Uma mulher está descascando a batata"],
["Uma mulher está temperando um pedaço de carne", "Não tem nenhum homem carregando um rifle com balas"]
]
output_textbox_component_description = """
This box will display the semantic similarity evaluation based on the average score of multiple models.
(Esta caixa exibirá a avaliação de similaridade semântica com base na pontuação média de vários modelos.)
"""
output_json_component_description = { "breakdown": """
This box presents a detailed breakdown of the evaluation for each model,
displaying the percentage of similarity between the text pairs.
""",
"detalhamento": """
(Esta caixa apresenta um detalhamento da avaliação para cada modelo,
exibindo a porcentagem de similaridade entre os pares textuais.)
""" }
score_descriptions = {
0: "# **{0}** \n \n The sentences are {0} similar. The sentences are completely different from each other and do not have any common topic or similarity.",
1: "# **{0}** \n \n The sentences are {0} similar. The sentences are completely different from each other and do not have any common topic or similarity.",
2: "# **{0}** \n \n The sentences are {0} similar. The sentences are not directly related, but they share some topic or theme.",
3: "# **{0}** \n \n The sentences are {0} similar. The sentences are somewhat related: they may have different content but have some common details or aspects.",
4: "# **{0}** \n \n The sentences are {0} similar. The sentences are strongly related, but still have some differences in details or wording.",
5: "# **{0}** \n \n The sentences are {0} similar. The sentences convey essentially the same message or information."
}
score_descriptions_pt = {
0: "(As frases possuem uma semelhança de {0}. As frases são completamente diferentes uma da outra e não têm nenhum tópico ou semelhança em comum.)",
1: "(As frases possuem uma semelhança de {0}. As frases são completamente diferentes uma da outra e não têm nenhum tópico ou semelhança em comum.)",
2: "(As frases possuem uma semelhança de {0}. As frases não estão diretamente relacionadas, mas compartilham algum tópico ou tema.)",
3: "(As frases possuem uma semelhança de {0}. As frases são um pouco relacionadas: podem ter conteúdo diferente, mas têm alguns detalhes ou aspectos comuns.)",
4: "(As frases possuem uma semelhança de {0}. As frases estão fortemente relacionadas, mas ainda têm algumas diferenças em detalhes ou palavras.)",
5: "(As frases possuem uma semelhança de {0}. As frases transmitem essencialmente a mesma mensagem ou informação.)"
}
model_list = [
"ruanchaves/mdeberta-v3-base-assin2-similarity",
"ruanchaves/bert-base-portuguese-cased-assin2-similarity",
"ruanchaves/bert-large-portuguese-cased-assin2-similarity",
"ruanchaves/mdeberta-v3-base-assin-similarity",
"ruanchaves/bert-base-portuguese-cased-assin-similarity",
"ruanchaves/bert-large-portuguese-cased-assin-similarity",
]
user_friendly_name = {
"ruanchaves/mdeberta-v3-base-assin2-similarity": "mDeBERTa-v3 (ASSIN 2)",
"ruanchaves/bert-base-portuguese-cased-assin2-similarity": "BERTimbau base (ASSIN 2)",
"ruanchaves/bert-large-portuguese-cased-assin2-similarity": "BERTimbau large (ASSIN 2)",
"ruanchaves/mdeberta-v3-base-assin-similarity": "mDeBERTa-v3 (ASSIN)",
"ruanchaves/bert-base-portuguese-cased-assin-similarity": "BERTimbau base (ASSIN)",
"ruanchaves/bert-large-portuguese-cased-assin-similarity": "BERTimbau large (ASSIN)"
}
reverse_user_friendly_name = { v:k for k,v in user_friendly_name.items() }
user_friendly_name_list = list(user_friendly_name.values())
model_array = []
for model_name in model_list:
row = {}
row["name"] = model_name
row["tokenizer"] = AutoTokenizer.from_pretrained(model_name)
row["model"] = AutoModelForSequenceClassification.from_pretrained(model_name)
model_array.append(row)
def predict(s1, s2, chosen_model):
if not chosen_model:
chosen_model = user_friendly_name_list[0]
scores = {}
full_chosen_model_name = reverse_user_friendly_name[chosen_model]
for row in model_array:
name = row["name"]
if name != full_chosen_model_name:
continue
else:
tokenizer = row["tokenizer"]
model = row["model"]
model_input = tokenizer(*([s1], [s2]), padding=True, return_tensors="pt")
with torch.no_grad():
output = model(**model_input)
logits = output[0][0].detach().numpy()
score = logits[0]
break
def get_description(idx):
description = score_descriptions[idx]
description_pt = score_descriptions_pt[idx]
final_description = description + "\n \n" + description_pt
return final_description
round_score = round(score)
score_percentage = min(score,5) / 5
score_percentage = '{:,.2%}'.format(score_percentage)
description = get_description(round_score).format(score_percentage)
return description
inputs = [
gr.Textbox(label="Text 1", value=app_examples[0][0]),
gr.Textbox(label="Text 2", value=app_examples[0][1]),
gr.Dropdown(label="Model", choices=user_friendly_name_list, value=user_friendly_name_list[0])
]
outputs = [
gr.Markdown(label="Result")
]
gr.Interface(fn=predict, inputs=inputs, outputs=outputs, title=app_title,
description=app_description,
examples=app_examples,
article = article_string).launch() |