Spaces:

lalital
/

wangchanbart-large-finetuned-xlsum

Sleeping

lalital commited on Jun 12, 2024

Commit

f1f90b3

verified ·

1 Parent(s): 055dd66

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -17,11 +17,7 @@ model = BartForConditionalGeneration.from_pretrained(
 tokenizer = AutoTokenizer.from_pretrained(
     'airesearch/wangchanbart-large',
 )
-text_summarize_pipeline = pipeline('text2text-generation',
-                                    tokenizer=tokenizer,
-                                    model=model)
 css_text = """<link rel="stylesheet" href="https://www.w3schools.com/w3css/4/w3.css">"""
 # def render_html(items: List[Dict]):
@@ -38,17 +34,26 @@ css_text = """<link rel="stylesheet" href="https://www.w3schools.com/w3css/4/w3.
 #     return '<div class="w3-container">' + html_text + '</div>'
-def summarize(text: str):
-    results = text_summarize_pipeline(text, max_length=1024)[0]
-    print(f'results:\n {results}')
-    # for i, result in enumerate(results):
-    #     results[i]['label'] = LABEL_MAPPING[result['label']]
-    #     results[i]['score'] = float(round(float(result['score']), 4))
-    # html_text = 'css_text + results'
-    html_text = '<p>' + results['generated_text'] +  '</p>'
-    print(html_text)
-    return html_text
 demo = gr.Interface(fn=summarize,

 tokenizer = AutoTokenizer.from_pretrained(
     'airesearch/wangchanbart-large',
 )
 css_text = """<link rel="stylesheet" href="https://www.w3schools.com/w3css/4/w3.css">"""
 # def render_html(items: List[Dict]):
 #     return '<div class="w3-container">' + html_text + '</div>'
+def summarize(input_text: str, model, tokenizer, num_beams=5) -> str:
+    input_length = len(tokenizer.tokenize(input_text))
+    inputs = tokenizer(input_text,
+                       return_tensors="pt",
+                       max_length=1024,
+                       truncation=True,
+                       padding='max_length')
+    predicted_token_ids = model.generate(inputs['input_ids'],
+                                         num_beams=num_beams,
+                                         min_length=32,
+                                         max_length=128,
+                                         length_penalty=10.0)
+    preditected_summary = tokenizer.decode(predicted_token_ids[0], skip_special_tokens=True)
+    return '<p>' + preditected_summary + '</p>'
 demo = gr.Interface(fn=summarize,