timpal0l
/

mdeberta-v3-base-squad2

Question Answering

Inference Endpoints

Model card Files Files and versions Community

timpal0l commited on Nov 30, 2022

Commit

2381ce9

•

1 Parent(s): 1b01058

Update README.md

Files changed (1) hide show

README.md +25 -1

README.md CHANGED Viewed

@@ -107,7 +107,31 @@ license: mit
 ## This model can be used for Extractive QA
 It has been finetuned for 3 epochs on [SQuAD2.0](https://rajpurkar.github.io/SQuAD-explorer/).
 ## DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing
 [DeBERTa](https://arxiv.org/abs/2006.03654) improves the BERT and RoBERTa models using disentangled attention and enhanced mask decoder. With those two improvements, DeBERTa out perform RoBERTa on a majority of NLU tasks with 80GB training data.

 ## This model can be used for Extractive QA
 It has been finetuned for 3 epochs on [SQuAD2.0](https://rajpurkar.github.io/SQuAD-explorer/).
+## Evaluation on SQuAD2.0 dev set
+```
+{
+    "epoch": 3.0,
+    "eval_HasAns_exact": 79.65587044534414,
+    "eval_HasAns_f1": 85.91387795001529,
+    "eval_HasAns_total": 5928,
+    "eval_NoAns_exact": 82.10260723296888,
+    "eval_NoAns_f1": 82.10260723296888,
+    "eval_NoAns_total": 5945,
+    "eval_best_exact": 80.8809904826076,
+    "eval_best_exact_thresh": 0.0,
+    "eval_best_f1": 84.00551406448994,
+    "eval_best_f1_thresh": 0.0,
+    "eval_exact": 80.8809904826076,
+    "eval_f1": 84.00551406449004,
+    "eval_samples": 12508,
+    "eval_total": 11873,
+    "train_loss": 0.7729689576483615,
+    "train_runtime": 9118.953,
+    "train_samples": 134891,
+    "train_samples_per_second": 44.377,
+    "train_steps_per_second": 0.925
+}
+```
 ## DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing
 [DeBERTa](https://arxiv.org/abs/2006.03654) improves the BERT and RoBERTa models using disentangled attention and enhanced mask decoder. With those two improvements, DeBERTa out perform RoBERTa on a majority of NLU tasks with 80GB training data.