|
import re |
|
import gradio as gr |
|
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM |
|
|
|
|
|
|
|
def cross_lingual_summarization(article_text, target_language='english'): |
|
|
|
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip())) |
|
|
|
|
|
model_name = "csebuetnlp/mT5_m2m_crossSum" |
|
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False) |
|
model = AutoModelForSeq2SeqLM.from_pretrained(model_name) |
|
|
|
get_lang_id = lambda lang: tokenizer._convert_token_to_id( |
|
model.config.task_specific_params["langid_map"][lang][1] |
|
) |
|
input_ids = tokenizer( |
|
[WHITESPACE_HANDLER(article_text)], |
|
return_tensors="pt", |
|
padding="max_length", |
|
truncation=True, |
|
max_length=512 |
|
)["input_ids"] |
|
|
|
output_ids = model.generate( |
|
input_ids=input_ids, |
|
decoder_start_token_id=get_lang_id(target_language), |
|
max_length=84, |
|
no_repeat_ngram_size=2, |
|
num_beams=4, |
|
)[0] |
|
|
|
summary = tokenizer.decode( |
|
output_ids, |
|
skip_special_tokens=True, |
|
clean_up_tokenization_spaces=False |
|
) |
|
|
|
return summary |
|
|
|
|
|
|
|
sample_articles = [ |
|
["স্বচ্ছ পান্নাসবুজ জলে সাঁতার, বালুময় সৈকতে সূর্যস্নান, প্রবালদ্বীপের বিলাসবহুল রিসোর্টে ছুটিযাপন, স্নোরকেলিং ও স্কুবা ডাইভিংয়ের মতো নানা রোমাঞ্চকর কর্মকাণ্ড—বলা যায় পর্যটকদের চাহিদা পূরণে সমস্ত সম্ভার নিয়ে বসে আছে মালদ্বীপ। তাই তো হানিমুনের জন্য নবদম্পতিদের কাছে যেমন, তেমনি রোমাঞ্চপ্রিয় ও নিরিবিলি আয়েশি অবকাশযাপনসন্ধানী ভ্রমণপিপাসুদের কাছেও পছন্দের এক গন্তব্য ভারত মহাসাগরের এই দ্বীপরাষ্ট্র। দেশটির সহজ ভিসানীতি, নিরাপত্তা আর নির্ঝঞ্ঝাট পরিবেশও পর্যটকদের আকর্ষণ করে। ঢাকা থেকে মালের সরাসরি ফ্লাইট, বিভিন্ন এয়ারলাইনসসহ ট্যুর পরিচালনাকারী প্রতিষ্ঠানগুলোর সাশ্রয়ী ভ্রমণ প্যাকেজের ফলে দিন দিন অনেক বাংলাদেশির কাছেও পছন্দের গন্তব্য হয়ে উঠেছে মালদ্বীপ। দেশটির সরকারি তথ্য বলছে, ২০২১ সালে যেখানে মাত্র ৩ হাজার ৯২৩ বাংলাদেশি ভারত মহাসাগরের দ্বীপরাষ্ট্রটি ভ্রমণে গিয়েছিল, ২০২২ সালে একলাফে সেই সংখ্যা গিয়ে দাঁড়ায় ১৬ হাজার ৮০৭-তে। সেই বৃদ্ধির ধারাবাহিকতা গত বছরও লক্ষ করা গেছে। ২০২৩ সালে মালদ্বীপ ভ্রমণ করেছেন ২৮ হাজার ৩৩৬ বাংলাদেশি। অর্থাৎ ২০২২ সালের তুলনায় দেশটিতে বাংলাদেশি পর্যটক বেড়েছে ৬৮ দশমিক ৬ শতাংশ। এই হিসাবে বাংলাদেশ এখন মালদ্বীপের ১৫তম পর্যটন বাজার।"], |
|
["Videos that say approved vaccines are dangerous and cause autism, cancer or infertility are among those that will be taken down, the company said. The policy includes the termination of accounts of anti-vaccine influencers. Tech giants have been criticised for not doing more to counter false health information on their sites. In July, US President Joe Biden said social media platforms were largely responsible for people's scepticism in getting vaccinated by spreading misinformation, and appealed for them to address the issue. YouTube, which is owned by Google, said 130,000 videos were removed from its platform since last year, when it implemented a ban on content spreading misinformation about Covid vaccines. In a blog post, the company said it had seen false claims about Covid jabs ""spill over into misinformation about vaccines in general"". The new policy covers long-approved vaccines, such as those against measles or hepatitis B. ""We're expanding our medical misinformation policies on YouTube with new guidelines on currently administered vaccines that are approved and confirmed to be safe and effective by local health authorities and the WHO," "the post said, referring to the World Health Organization."], |
|
["ミシェル・ロバーツ、BBCニュースオンライン健康担当編集長 英オックスフォード大学の研究チームによると、低用量のデキサメタゾンは新型ウイルスとの戦いで画期的な突破口になる。 新型コロナウイルスに対し、様々な既存の治療法の効果を試す世界的規模の臨床試験の一貫として、デキサメタゾンが試された。 その結果、人工呼吸器を必要とする重症患者の致死率が3割下がり、酸素供給を必要とする患者の場合は2割下がった。 新型ウイルスのパンデミック(世界的流行)の初期からイギリスでデキサメタゾンを治療に使用していた場合、最大5000人の命が救えたはずだと研究者たちは言う。 さらに、新型コロナウイルスによる感染症「COVID-19」の患者が多く出ている貧しい国にとっても、安価なデキサメタゾンを使う治療は大いに役立つと期待される。 重症者の致死率が大幅に下がる イギリス政府は20万人分の投与量を備蓄しており、国民医療制度の国民保健サービス(NHS)で患者への使用を開始する方針を示した。 ボリス・ジョンソン英首相は「イギリス科学界の素晴らしい成果」を歓迎し、「たとえ感染の第2波が来ても備蓄が足りるよう、数を確保するための措置をとった」と述べた。 イングランド首席医務官クリス・ウィッティー教授は、「COVID-19にとってこれまでで一番重要な臨床試験結果だ。手に入りやすく安全でなじみのある薬によって、酸素供給や人工呼吸器が必要な人の致死率が大幅に下がった。(中略)この発見が世界中で人命を救う」と評価した。 <関連記事> 新型コロナウイルスに20人が感染した場合、19人は入院しないまま回復する。入院する人もほとんどは回復するものの、重症化して酸素供給や人工呼吸器を必要とする人もいる。 デキサメタゾンはこうした重症患者の治療に効果があるもよう。 新型ウイルスに感染した患者の体内では、ウイルスと戦う免疫系が暴走することがある。その免疫系の過剰反応による体の損傷を、デキサメタゾンが緩和するものとみられる。 「サイトカイン・ストーム」と呼ばれる免疫系の過剰反応が、患者の命を奪うこともある。 デキサメタゾンはすでに抗炎症剤として、ぜんそくや皮膚炎など様々な症状の治療に使われている。 初めて致死率を下げる薬 オックスフォード大学が主導する臨床試験は、約2000人の入院患者にデキサメタゾンを投与。それ以外の4000人以上の患者と容体を比較した。 人工呼吸器を使用する患者については、死亡リスクが40%から28%に下がった。 酸素供給する患者は、死亡リスクが25%から20%に下がった。 研究チームのピーター・ホービー教授は、「今のところ、致死率を実際に下げる結果が出たのは、この薬だけだ。しかも、致死率をかなり下げる。画期的な突破口だ」と話した。 研究を主導するマーティン・ランドレイ教授によると、人工呼吸器を使う患者の8人に1人、ならびに酸素供給治療を受ける患者の20-25人に1人が、デキサメタゾンで救えることが分かったという。 「これはきわめて明確なメリットだ」と教授は言う。 「最大10日間、デキサメタゾンを投与するという治療法で、費用は患者1人あたり1日約5ポンド(約670円)。つまり、35ポンド(約4700円)で人ひとりの命が救える」 「しかもこれは、世界中で手に入る薬だ」 状況が許す限り、新型コロナウイルスで入院中の患者にはただちに投与を開始すべきだと、ランドレイ教授は促した。 ただし、自宅で自己治療するために薬局に買いに行くべきではないと言う。 デキサメタゾンは、呼吸補助を必要としない軽症の患者には効果がないもよう。 3月に始動した新型コロナウイルス治療薬の無作為化臨床試験「リカバリー・トライアル」は、抗マラリア薬「ヒドロキシクロロキン」も調べたものの、心臓疾患や致死率の悪化につながるという懸念から、ヒドロキシクロロキンについては試験を中止した。 一方で、感染者の回復にかかる時間を短縮するとみられるレムデシビルは、すでにNHSの保険対象になり治療現場で使われている。 <解説> ファーガス・ウォルシュBBC健康担当編集委員 COVID-19の死者を減らすと初めて立証された薬は、高価な新しい薬ではなく、古くからずっと使われてきた、きわめて安いステロイド剤だった。 世界中の患者が直ちにその恩恵を受けることになるので、これは歓迎すべき発見だ。 この臨床試験の最新成果がこれほど急いで発表されたのは、そのためだ。とてつもない影響を世界中にもたらすので。 デキサメタゾンは1960年代初めから、関節リウマチやぜんそくなど、幅広い症状の治療に使われてきた。 これまでは、人工呼吸器を必要とするCOVID-19患者の半数が亡くなってきた。その致死率を3割減らすというのは、絶大な効果だ。 集中治療室では点滴で投与する。もう少し軽症な患者には、錠剤で与える。 これまでのところ、COVID-19患者に効果があると証明された薬は、エボラ治療薬のレムデシビルだけだった。 レムデシビルは症状の回復期間を15日から11日に短縮する。しかし、致死率を下げると言えるだけの証拠は出ていなかった。 デキサメタゾンと異なり、レムデシビルは数の少ない新薬で、薬価もまだ公表されていない。"] |
|
|
|
] |
|
|
|
|
|
|
|
iface = gr.Interface( |
|
fn=cross_lingual_summarization, |
|
inputs=[ |
|
gr.Textbox(label='Article Text'), |
|
gr.Dropdown(choices = ['amharic', 'arabic', 'azerbaijani', 'bengali', 'burmese', 'chinese_simplified', 'chinese_traditional', |
|
'english', 'french', 'gujarati', 'hausa', 'hindi', 'igbo', 'indonesian', 'japanese', 'kirundi', |
|
'korean', 'kyrgyz', 'marathi', 'nepali', 'oromo', 'pashto', 'persian', 'pidgin', 'portuguese', |
|
'punjabi', 'russian', 'scottish_gaelic', 'serbian_cyrillic', 'serbian_latin', 'sinhala', 'somali', |
|
'spanish', 'swahili', 'tamil', 'telugu', 'thai', 'tigrinya', 'turkish', 'ukrainian', 'urdu', 'uzbek', |
|
'vietnamese', 'welsh', 'yoruba'], label='Target Language') |
|
|
|
|
|
], |
|
outputs=gr.Textbox(label='Summary'), |
|
live=False, |
|
examples=sample_articles, |
|
title="Cross-Lingual Summarization", |
|
description="Effortlessly transform lengthy texts into concise summaries across languages, bridging gaps and empowering global understanding!", |
|
theme="griffinlim/CoolTeal" |
|
) |
|
|
|
|
|
iface.launch() |