Spaces:

somosnlp-hackathon-2022
/

es_nlp_gender_neutralizer

Build error

App Files Files Community

fvelasco commited on Mar 28, 2022

Commit

243307b

•

1 Parent(s): d787566

modified the app

Browse files

Files changed (1) hide show

app.py +54 -1

app.py CHANGED Viewed

@@ -1,7 +1,60 @@
 import gradio as gr
 def greet(name):
     return "Hello " + name + "!!"
-iface = gr.Interface(fn=greet, inputs="text", outputs="text")
 iface.launch()

+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+import os
+os.environ["CUDA_VISIBLE_DEVICES"]="0"
 import gradio as gr
 def greet(name):
     return "Hello " + name + "!!"
+import torch
+first_generation = True
+prefix = ''
+device = 'cuda' if torch.cuda.is_available() else 'cpu'
+model_checkpoint = "fermaat/es_nlp_text_neutralizer"
+tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
+# model = T5ForConditionalGeneration.from_pretrained(model_checkpoint)
+model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)
+# TODO: jarl!! check this for avoiding short segments
+model.config.max_length = 512
+model.to(device)
+# sentences = ["El libro relata las aventuras y desventuras de un hidalgo de 50 años llamado Alonso Quijano, quien decide ser un caballero andante como aquellos que aparecen en sus libros de caballerías favoritos.Las hazañas de don Quijote están contenidas en dos tomos que narran tres salidas. Por un lado, la “Primera parte” denominada como El ingenioso Hidalgo Don Quijote de la Mancha está formada por 52 capítulos y en ella se encuentran la primera salida y la segunda salida."]
+# sentences = ['De acuerdo con las informaciones anteriores , las alumnas se han quejado de la actitud de los profesores en los exámenes finales. Los representantes estudiantiles son los alumnos Juanju y Javi.']
+def get_output(sentences, first_generation=True):
+    inputs = tokenizer([prefix + sentence for sentence in sentences], return_tensors="pt", padding=True)
+    with torch.no_grad():
+        if first_generation:
+            output_sequences = model.generate(
+                input_ids=inputs["input_ids"].to(device),
+                attention_mask=inputs["attention_mask"].to(device),
+                do_sample=False,  # disable sampling to test if batching affects output
+            )
+        else:
+            output_sequences = model.generate(
+                input_ids=inputs["input_ids"].to(device),
+                attention_mask=inputs["attention_mask"].to(device),
+                do_sample=False,
+                num_beams=2,
+                repetition_penalty=2.5,
+                # length_penalty=1.0,
+                early_stopping=True# disable sampling to test if batching affects output
+            )
+    preds = [tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=True) for g in output_sequences]
+    return preds
+# get_output(sentences)
+iface = gr.Interface(fn=get_output, inputs="text", outputs="text")
 iface.launch()