bengali-fake-news / README.md
armansakif's picture
edit 3
07cb153
|
raw
history blame
7.46 kB
metadata
license: cc-by-nc-sa-4.0
language:
  - bn
library_name: transformers
tags:
  - Pytorch
  - Bengali Fake News
  - summarization
  - augmentation
widget:
  - text: >-
      খেলা হবে - বাংলাদেশের এক বিশেষ ডায়লগ। এই ডায়লগ সবার আগে কে বলেছিলেন তার
      নাম বাংলার সবাই জানে। তবু যারা জানেন না তাদের সুবিধার্থে, নারায়ণগঞ্জের
      সংসদ সদস্য শামীম ওসমান একবার তার ভাষণে এই খেলা হবে ডায়ালগটা ব্যবহার করেন।
      তার ভাইরাল হওয়া ভাষণ ছিল, ২ মিনিট ১১ সেকেন্ডের, সেই ভাষণে তিনি ‘খেলা হবে’
      শব্দ ব্যবহার করেছেন মোট ৩ বার! তাও শরীর ঝাঁকিয়ে এবং গলার সর্বস্বক্তি দিয়ে।
      তার বলা এই ডায়লগ বাংলাদেশের বুকেই থেকে যায়নি। উড়তে উড়তে গিয়ে ঠেকেছিল
      ভারতের বুকেও। বলা যায়, বাংলাদেশের থেকে বেশি জনপ্রিয়তাই পেয়ে বসেছিল ভারতে।
      ভারতের পশ্চিমবঙ্গের সবচেয়ে জনপ্রিয় স্লোগান হচ্ছে এই খেলা হবে।  শুধু
      স্লোগানেই থেমে থাকেনি আমাদের -খেলা হবে। ছড়িয়ে গেছে মুভিতেও। আলিয়া ভাট ও
      রনবীর সিং অভিনীত রকি ওর রাণী মুভিতেও ব্যবহার করা হয়েছে খেলা হবে ডায়লগ।
      মুভির নায়িকা স্বয়ং আলিয়া ভাটই একটা সিনে বলেছেন, খেলা হবে। এমনকি তিনি এটা
      বাংলাতেই বলেছেন!
    example_title: example 1
  - text: ' সারা দেশে ডেঙ্গু পরিস্থিতি দিন দিন আরও ভয়াবহ রূপ নিচ্ছে। ডেঙ্গু জ্বরে আক্রান্ত হয়ে গত ২৪ ঘণ্টায় সারাদেশে ৮ জনের মৃত্যু হয়েছে। এ নিয়ে চলতি বছর ডেঙ্গু আক্রান্ত হয়ে মৃতের সংখ্যা দাঁড়িয়েছে ২৪৭ জনে। এছাড়া গত ২৪ ঘণ্টায় নতুন করে হাসপাতালে ভর্তি হয়েছেন ২ হাজার ৭৩১ জন, যা একদিনে এ বছরের মধ্যে সর্বোচ্চ। স্বাস্থ্য অধিদপ্তর জানায়, ডেঙ্গু আক্রান্ত হয়ে দেশের বিভিন্ন সরকারি-বেসরকারি হাসপাতালে ভর্তি হয়েছেন দুই হাজার ৭৩১ জন। তাদের মধ্যে ঢাকার বাসিন্দা এক হাজার ১৮৪ জন ও ঢাকার বাইরের এক হাজার ৫৪৭ জন। ২৪ ঘণ্টায় মৃত আটজনের মধ্যে চারজন ঢাকার ও চারজন ঢাকার বাইরের বাসিন্দা বলে জানায় স্বাস্থ্য অধিদপ্তর। চলতি বছরের ১ জানুয়ারি থেকে ৩০ জুলাই পর্যন্ত ডেঙ্গু আক্রান্ত হয়েছেন ৪৯ হাজার ১৩৮ জন। তাদের মধ্যে ঢাকার বাসিন্দা ২৮ হাজার ৩২ জন। ঢাকার বাইরের হাসপাতালগুলোতে ভর্তি হয়েছেন ২১ হাজার ১০৬ জন। একই সময়ে হাসপাতাল থেকে ছাড়পত্র পেয়েছেন ৩৯ হাজার ৪৭৩ জন। তাদের মধ্যে ঢাকার বাসিন্দা ২২ হাজার ৬৯৩ জন এবং ঢাকার বাইরের ১৬ হাজার ৭৮০ জন। উল্লেখ্য, ২০২২ সালে ডেঙ্গুতে দেশের ইতিহাসের সর্বোচ্চ ২৮১ জন মারা যান। একই সঙ্গে আলোচ্য বছরে ডেঙ্গু আক্রান্ত হয়ে হাসপাতালে ভর্তি হন ৬২ হাজার ৩৮২ জন। ২০২১ সালে সারাদেশে ডেঙ্গু আক্রান্ত হন ২৮ হাজার ৪২৯ জন। একই বছর দেশব্যাপী ডেঙ্গু আক্রান্ত হয়ে ১০৫ জনের মৃত্যু হয়েছিল। '
    example_title: example 2

Model Description

This is Bengali Fake News detection model, version 1.0. This model was introduced in this paper. An original implementation is deployed in this huggingface space.

In the hosted API interface on the right, the meaning of labels are: LABEL_0 = Fake LABEL_1 = Authentic

Model type: deep learning classifier

Finetuned From Model : https://huggingface.co/bert-base-multilingual-cased

How to load this model using transformers (tested on 4.31.0-py3)

from transformers import BertTokenizer, AutoTokenizer
from transformers import BertForSequenceClassification, AdamW, BertConfig

tokenizer = AutoTokenizer.from_pretrained('armansakif/bengali-fake-news')

model = BertForSequenceClassification.from_pretrained(
    "armansakif/bengali-fake-news", # Use the 12-layer BERT model, with an uncased vocab.
    num_labels = 2, # The number of output labels--2 for binary classification.
                    # You can increase this for multi-class tasks.
    output_attentions = False, # Whether the model returns attentions weights.
    output_hidden_states = False, # Whether the model returns all hidden-states.
)

Citation

If you use this model, please cite the following paper: BibTeX:

@article{chowdhury2023tackling,
  title={Tackling Fake News in Bengali: Unraveling the Impact of Summarization vs. Augmentation on Pre-trained Language Models},
  author={Chowdhury, Arman Sakif and Shahariar, GM and Aziz, Ahammed Tarik and Alam, Syed Mohibul and Sheikh, Md Azad and Belal, Tanveer Ahmed},
  journal={arXiv preprint arXiv:2307.06979},
  year={2023}
}

APA:

Chowdhury, A. S., Shahariar, G. M., Aziz, A. T., Alam, S. M., Sheikh, M. A., & Belal, T. A. (2023). Tackling Fake News in Bengali: Unraveling the Impact of Summarization vs. Augmentation on Pre-trained Language Models. arXiv preprint arXiv:2307.06979.