File size: 6,836 Bytes
fc25e5f
abd77a4
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fc25e5f
6452287
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fc25e5f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ff0f1b8
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fc25e5f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6452287
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
---
model-index:
- name: afschowdhury/qa-xlmr-bn
  results:
  - task:
      type: question-answering
      name: Question Answering
    dataset:
      name: squad_bn
      type: squad_bn
      config: squad_v2
      split: validation
    metrics:
    - type: exact_match
      value: 94.52875399361022
      name: Exact Match
    - type: f1
      value: 96.56710191654284
      name: F1
    - type: total
      value: 2504
      name: total
    - type: HasAns_exact
      value: 89.29712460063898
      name: HasAns_exact
    - type: HasAns_f1
      value: 93.37382044650411
      name: HasAns_f1
    - type: HasAns_total
      value: 1252
      name: HasAns_total
    - type: NoAns_exact
      value: 99.76038338658147
      name: NoAns_exact
    - type: NoAns_f1
      value: 99.76038338658147
      name: NoAns_f1
    - type: NoAns_total
      value: 1252
      name: NoAns_total
widget:
- text: What's my name?
  context: My name is Clara and I live in Berkeley.
  example_title: Name
- text: Where do I live?
  context: My name is Sarah and I live in London
  example_title: Location
datasets:
- csebuetnlp/squad_bn
language:
- bn
- en
pipeline_tag: question-answering
tags:
- question-answering
- transformers
- xlmr
- xlm-roberta-large
- squad_bn
- squad
---

# `qa-xlmr-bn` for QA on Bengali

This is the [xlm-roberta-large](https://huggingface.co/xlm-roberta-large) model, fine-tuned using the [squad_bn](https://huggingface.co/datasets/csebuetnlp/squad_bn) dataset. It's been trained on question-answer pairs, including unanswerable questions, for the task of Question Answering. 


## Overview
**Base Language model:**  [xlm-roberta-large](https://huggingface.co/xlm-roberta-large)<br>
**Language:** Multilingual ( *Fine tuned for Bengali*)<br>
**Downstream-task:** Extractive QA  
**Training data:** [Squad_bn](https://huggingface.co/datasets/csebuetnlp/squad_bn)<br>
**Eval data:** [Squad_bn](https://huggingface.co/datasets/csebuetnlp/squad_bn)<br>
**Code for fine-tuning:** [Github](https://github.com/afschowdhury/onusondhan/tree/main)<br>
**Project Paper:** [Transfer Learning Based Language Model for
Bangla Question Answering](https://drive.google.com/file/d/1-97Y0adu0U_xrfEXidEfHCCS6qaCAoDN/view?usp=sharing)


## Hyperparameters

```
learning rate=2e-5
lr scheduler type = "linear"
warmup ratio = 0.2
per device train batch size=4
per device eval batch size=4
weight decay=0.01
num train epochs=3
max seq length: 384
docs stride: 128
max answer length = 30
``` 


## Usage
### In Transformers
```python
from transformers import  pipeline

model = "afschowdhury/qa-xlmr-bn"


nlp = pipeline('question-answering', model=model, tokenizer=model)
context = """সাফ চ্যাম্পিয়নশিপের ট্রফিটা কোলের ওপর রেখে ঢাকায় ফেরার বিমানের অপেক্ষা করছিলেন সানজিদা আক্তার।
পাশের চেয়ারে কৃষ্ণা রানী সরকার, মাসুরা পারভীনরা তখন মুঠোফোনে ব্যস্ত।
কিন্তু মুঠোফোনের স্ক্রিনে বেশিক্ষণ চোখ রাখতে পারছিলেন না কেউই। কাঠমান্ডুর ত্রিভুবন আন্তর্জাতিক
বিমানবন্দরের ইমিগ্রেশন শেষে ঢাকাগামী বাংলাদেশি যাত্রীদের অভিনন্দন গ্রহণ করতেই বেশি ব্যস্ত হয়ে যেতে হলো।
 একটু পরপর ট্রফিসহ ফুটবলারদের সঙ্গে ছবি ও সেলফি তুলতে লাগলেন যাত্রীরা।
 শুধু বাংলাদেশিরাই নন, বিমানবন্দরে থাকা বিদেশি যাত্রীরাও সাফজয়ীদের সঙ্গে
 ছবি তুললেন। দলের সঙ্গে ঢাকায় এসেছেন বাংলাদেশ ফুটবল ফেডারেশনের মহিলা
কমিটির চেয়ারম্যান মাহফুজা আক্তার। বিমানে ওঠার আগে মেয়েদের এক দফা কাছে
 ডেকে নেন এই কর্মকর্তা। গোল হয়ে দাঁড়িয়ে মাহফুজার কথাগুলো শোনেন সাবিনারা।
ঢাকায় হজরত শাহজালাল আন্তর্জাতিক বিমানবন্দরে নামার পর আনুষ্ঠানিকতা কেমন হবে,
ছাদখোলা বাসে কীভাবে মেয়েরা উঠবেন, কতটা শৃঙ্খলা বজায় রেখে ছাদে উঠতে হবে, সে পরামর্শ দিলেন।
বাসে মেয়েদের পাশে যেন আর কেউ না দাঁড়াতে পারেন, বাংলাদেশ নারী ফুটবল দলের ম্যানেজার আমিরুল
 ইসলামকে সেটা তদারক করার নির্দেশ দেন মাহফুজা।দেশে ফেরার জন্য তর সইছিল না মারিয়া মান্দা,
মণিকা চাকমাদেরও। ত্রিভুবন বিমানবন্দরের রানওয়ে থেকে বাংলাদেশ বিমানের বিজি ৩৭২ বোয়িং উড়োজাহাজটি
নেপালের আকাশ ছুঁতেই মেয়েরা আনন্দে একসঙ্গে চিৎকার করে ওঠেন।"""

QA_input = {
    'question': '  বাংলাদেশ ফুটবল  ফেডারেশনের মহিলা কমিটির চেয়ারম্যান  কে ',
    'context': context
}
res = nlp(QA_input)
print(res)
```

## Performance
Evaluated on the `csebuetnlp/squad_bn` validation set. Evaluation code is stated on the trainig code [here](https://github.com/afschowdhury/onusondhan/blob/main/bn_qas_training.ipynb)

```
'exact': 94.52875399361022,
 'f1': 96.56710191654284,
 'total': 2504,
 'HasAns_exact': 89.29712460063898,
 'HasAns_f1': 93.37382044650411,
 'HasAns_total': 1252,
 'NoAns_exact': 99.76038338658147,
 'NoAns_f1': 99.76038338658147,
 'NoAns_total': 1252,
 ```

### Point of Contact
**Asif Faisal Chowdhury**  
E-mail: [afschowdhury@gmail.com](mailto:afschowdhury@gmail.com) | Linked-in: [afschowdhury](https://www.linkedin.com/in/afschowdhury)