File size: 5,948 Bytes
fc25e5f
 
6452287
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fc25e5f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6452287
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
---
widget:
- text: What's my name?
  context: My name is Clara and I live in Berkeley.
  example_title: Name
- text: Where do I live?
  context: My name is Sarah and I live in London
  example_title: Location
datasets:
- csebuetnlp/squad_bn
language:
- bn
- en
pipeline_tag: question-answering
tags:
- question-answering
- transformers
- xlmr
- xlm-roberta-large
- squad_bn
- squad
---

# `qa-xlmr-bn` for QA on Bengali

This is the [xlm-roberta-large](https://huggingface.co/xlm-roberta-large) model, fine-tuned using the [squad_bn](https://huggingface.co/datasets/csebuetnlp/squad_bn) dataset. It's been trained on question-answer pairs, including unanswerable questions, for the task of Question Answering. 


## Overview
**Base Language model:**  [xlm-roberta-large](https://huggingface.co/xlm-roberta-large)<br>
**Language:** Multilingual ( *Fine tuned for Bengali*)<br>
**Downstream-task:** Extractive QA  
**Training data:** [Squad_bn](https://huggingface.co/datasets/csebuetnlp/squad_bn)<br>
**Eval data:** [Squad_bn](https://huggingface.co/datasets/csebuetnlp/squad_bn)<br>
**Code for fine-tuning:** [Github](https://github.com/afschowdhury/onusondhan/tree/main)<br>
**Project Paper:** [Transfer Learning Based Language Model for
Bangla Question Answering](https://drive.google.com/file/d/1-97Y0adu0U_xrfEXidEfHCCS6qaCAoDN/view?usp=sharing)


## Hyperparameters

```
learning rate=2e-5
lr scheduler type = "linear"
warmup ratio = 0.2
per device train batch size=4
per device eval batch size=4
weight decay=0.01
num train epochs=3
max seq length: 384
docs stride: 128
max answer length = 30
``` 


## Usage
### In Transformers
```python
from transformers import  pipeline

model = "afschowdhury/qa-xlmr-bn"


nlp = pipeline('question-answering', model=model, tokenizer=model)
context = 'সাফ চ্যাম্পিয়নশিপের ট্রফিটা কোলের ওপর রেখে ঢাকায় ফেরার বিমানের অপেক্ষা করছিলেন সানজিদা আক্তার। পাশের চেয়ারে কৃষ্ণা রানী সরকার, মাসুরা পারভীনরা তখন মুঠোফোনে ব্যস্ত। কিন্তু মুঠোফোনের স্ক্রিনে বেশিক্ষণ চোখ রাখতে পারছিলেন না কেউই। কাঠমান্ডুর ত্রিভুবন আন্তর্জাতিক বিমানবন্দরের ইমিগ্রেশন শেষে ঢাকাগামী বাংলাদেশি যাত্রীদের অভিনন্দন গ্রহণ করতেই বেশি ব্যস্ত হয়ে যেতে হলো। একটু পরপর ট্রফিসহ ফুটবলারদের সঙ্গে ছবি ও সেলফি তুলতে লাগলেন যাত্রীরা। শুধু বাংলাদেশিরাই নন, বিমানবন্দরে থাকা বিদেশি যাত্রীরাও সাফজয়ীদের সঙ্গে ছবি তুললেন। দলের সঙ্গে ঢাকায় এসেছেন বাংলাদেশ ফুটবল ফেডারেশনের মহিলা কমিটির চেয়ারম্যান মাহফুজা আক্তার। বিমানে ওঠার আগে মেয়েদের এক দফা কাছে ডেকে নেন এই কর্মকর্তা। গোল হয়ে দাঁড়িয়ে মাহফুজার কথাগুলো শোনেন সাবিনারা। ঢাকায় হজরত শাহজালাল আন্তর্জাতিক বিমানবন্দরে নামার পর আনুষ্ঠানিকতা কেমন হবে, ছাদখোলা বাসে কীভাবে মেয়েরা উঠবেন, কতটা শৃঙ্খলা বজায় রেখে ছাদে উঠতে হবে, সে পরামর্শ দিলেন। বাসে মেয়েদের পাশে যেন আর কেউ না দাঁড়াতে পারেন, বাংলাদেশ নারী ফুটবল দলের ম্যানেজার আমিরুল ইসলামকে সেটা তদারক করার নির্দেশ দেন মাহফুজা।দেশে ফেরার জন্য তর সইছিল না মারিয়া মান্দা, মণিকা চাকমাদেরও। ত্রিভুবন বিমানবন্দরের রানওয়ে থেকে বাংলাদেশ বিমানের বিজি ৩৭২ বোয়িং উড়োজাহাজটি নেপালের আকাশ ছুঁতেই মেয়েরা আনন্দে একসঙ্গে চিৎকার করে ওঠেন।'

QA_input = {
    'question': '  বাংলাদেশ ফুটবল  ফেডারেশনের মহিলা কমিটির চেয়ারম্যান  কে ',
    'context': context
}
res = nlp(QA_input)
print(res)
```

## Performance
Evaluated on the `csebuetnlp/squad_bn` validation set. Evaluation code is stated on the trainig code [here](https://github.com/afschowdhury/onusondhan/blob/main/bn_qas_training.ipynb)

```
'exact': 94.52875399361022,
 'f1': 96.56710191654284,
 'total': 2504,
 'HasAns_exact': 89.29712460063898,
 'HasAns_f1': 93.37382044650411,
 'HasAns_total': 1252,
 'NoAns_exact': 99.76038338658147,
 'NoAns_f1': 99.76038338658147,
 'NoAns_total': 1252,
 ```

### Point of Contact
**Asif Faisal Chowdhury**  
E-mail: [afschowdhury@gmail.com](mailto:afschowdhury@gmail.com) | Linked-in: [afschowdhury](https://www.linkedin.com/in/afschowdhury)