badokorach
/

afro-xlmr-base

@@ -1,6 +1,6 @@
 ---
-license: cc-by-4.0
-base_model: deepset/roberta-base-squad2
 tags:
 - generated_from_keras_callback
 model-index:
@@ -13,11 +13,11 @@ probably proofread and complete it, then remove this comment. -->
 # badokorach/afro-xlmr-base
-This model is a fine-tuned version of [deepset/roberta-base-squad2](https://huggingface.co/deepset/roberta-base-squad2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Train Loss: 0.0921
 - Validation Loss: 0.0
-- Epoch: 3
 ## Model description
@@ -36,17 +36,14 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- optimizer: {'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 3e-05, 'decay_steps': 1300, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.02}
 - training_precision: mixed_float16
 ### Training results
 | Train Loss | Validation Loss | Epoch |
 |:----------:|:---------------:|:-----:|
-| 0.1316     | 0.0             | 0     |
-| 0.1456     | 0.0             | 1     |
-| 0.1123     | 0.0             | 2     |
-| 0.0921     | 0.0             | 3     |
 ### Framework versions

 ---
+license: apache-2.0
+base_model: bert-base-multilingual-cased
 tags:
 - generated_from_keras_callback
 model-index:
 # badokorach/afro-xlmr-base
+This model is a fine-tuned version of [bert-base-multilingual-cased](https://huggingface.co/bert-base-multilingual-cased) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Train Loss: 2.9710
 - Validation Loss: 0.0
+- Epoch: 0
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- optimizer: {'inner_optimizer': {'class_name': 'AdamWeightDecay', 'config': {'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 3e-05, 'decay_steps': 1300, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.02}}, 'dynamic': True, 'initial_scale': 32768.0, 'dynamic_growth_steps': 2000}
 - training_precision: mixed_float16
 ### Training results
 | Train Loss | Validation Loss | Epoch |
 |:----------:|:---------------:|:-----:|
+| 2.9710     | 0.0             | 0     |
 ### Framework versions

config.json CHANGED Viewed

@@ -1,29 +1,30 @@
 {
-  "_name_or_path": "deepset/roberta-base-squad2",
   "architectures": [
-    "RobertaForQuestionAnswering"
   ],
   "attention_probs_dropout_prob": 0.1,
-  "bos_token_id": 0,
   "classifier_dropout": null,
-  "eos_token_id": 2,
-  "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
-  "language": "english",
-  "layer_norm_eps": 1e-05,
-  "max_position_embeddings": 514,
-  "model_type": "roberta",
-  "name": "Roberta",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
-  "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "transformers_version": "4.33.0",
-  "type_vocab_size": 1,
   "use_cache": true,
-  "vocab_size": 50265
 }

 {
+  "_name_or_path": "bert-base-multilingual-cased",
   "architectures": [
+    "BertForQuestionAnswering"
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
+  "directionality": "bidi",
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
   "position_embedding_type": "absolute",
   "transformers_version": "4.33.0",
+  "type_vocab_size": 2,
   "use_cache": true,
+  "vocab_size": 119547
 }

tf_model.h5 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39668dfabd02f6c9677f2ba04aef4591c207369e87472c2a5d1a1aaf0e8f8c81
-size 496513256

 version https://git-lfs.github.com/spec/v1
+oid sha256:52ad6afd3cb22c67750abe09aadb8f75ef5c00438fc15dfbd8940b73da280e43
+size 709330896