update files

Files changed (9) hide show

README.md CHANGED Viewed

@@ -1,3 +1,50 @@
 ---
 license: mit
 ---

 ---
 license: mit
 ---
+The [**camembert-base**](https://huggingface.co/camembert-base] model) converted as ONNX format to be used with [Transformers.js](https://huggingface.co/docs/transformers.js/api/pipelines#module_pipelines.FillMaskPipeline)
+```js
+<script type="module">
+    import { pipeline } from 'https://cdn.jsdelivr.net/npm/@xenova/transformers@2.6.2';
+    const unmasker = await pipeline('fill-mask', 'benjaminchazelle/camembert-base-onnx', { quantized: false })
+    console.log(await unmasker('La capitale de la France est<mask>'))
+    /*
+    [
+      {
+        "score": 0.45410260558128357,
+        "token": 186,
+        "token_str": "▁...",
+        "sequence": "La capitale de la France est..."
+      },
+      {
+        "score": 0.06095331534743309,
+        "token": 300,
+        "token_str": "▁Paris",
+        "sequence": "La capitale de la France est Paris"
+      },
+      {
+        "score": 0.04425867274403572,
+        "token": 16,
+        "token_str": "▁le",
+        "sequence": "La capitale de la France est le"
+      },
+      {
+        "score": 0.035498425364494324,
+        "token": 807,
+        "token_str": "▁[...]",
+        "sequence": "La capitale de la France est [...]"
+      },
+      {
+        "score": 0.03408252075314522,
+        "token": 13,
+        "token_str": "▁la",
+        "sequence": "La capitale de la France est la"
+      }
+    ]
+    */
+</script>
+```

config.json CHANGED Viewed

@@ -1,12 +1,13 @@
 {
-  "_name_or_path": "camembert_base_onnx",
   "architectures": [
     "CamembertForMaskedLM"
   ],
   "attention_probs_dropout_prob": 0.1,
-  "bos_token_id": 5,
   "classifier_dropout": null,
-  "eos_token_id": 6,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
@@ -18,7 +19,7 @@
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
   "output_past": true,
-  "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "transformers_version": "4.33.3",
   "type_vocab_size": 1,

 {
+  "_name_or_path": "camembert/camembert-base",
   "architectures": [
     "CamembertForMaskedLM"
   ],
   "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
   "classifier_dropout": null,
+  "eos_token_id": 2,
+  "eos_token_ids": 0,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
   "output_past": true,
+  "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "transformers_version": "4.33.3",
   "type_vocab_size": 1,

onnx/model.onnx ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:26b7ef2a0f4ae4b938e3d60aefc6910dc058fdbc3c7e2c19c8599dee842f68e4
+size 541224953

onnx/model_quantized.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f854dd055a35a51075adcaf583e603615c68c0f42159d58f52a6d5b75b708d5
-size 540991078

 version https://git-lfs.github.com/spec/v1
+oid sha256:44ba450bbe12f1c8daa129020091ee60f067e5b04e8edbac850f0e0364e3f84b
+size 136755047

ort_config.json DELETED Viewed

@@ -1,38 +0,0 @@
-{
-  "one_external_file": true,
-  "opset": null,
-  "optimization": {
-    "disable_attention": null,
-    "disable_attention_fusion": false,
-    "disable_bias_gelu": null,
-    "disable_bias_gelu_fusion": false,
-    "disable_bias_skip_layer_norm": null,
-    "disable_bias_skip_layer_norm_fusion": false,
-    "disable_embed_layer_norm": true,
-    "disable_embed_layer_norm_fusion": true,
-    "disable_gelu": null,
-    "disable_gelu_fusion": false,
-    "disable_group_norm_fusion": true,
-    "disable_layer_norm": null,
-    "disable_layer_norm_fusion": false,
-    "disable_packed_kv": true,
-    "disable_shape_inference": true,
-    "disable_skip_layer_norm": null,
-    "disable_skip_layer_norm_fusion": false,
-    "enable_gelu_approximation": false,
-    "enable_gemm_fast_gelu_fusion": false,
-    "enable_transformers_specific_optimizations": true,
-    "fp16": false,
-    "no_attention_mask": false,
-    "optimization_level": 2,
-    "optimize_for_gpu": false,
-    "optimize_with_onnxruntime_only": null,
-    "use_mask_index": false,
-    "use_multi_head_attention": false,
-    "use_raw_attention_mask": false
-  },
-  "optimum_version": "1.13.2",
-  "quantization": {},
-  "transformers_version": "4.33.3",
-  "use_external_data_format": false
-}

quantize_config.json ADDED Viewed

+{
+    "per_channel": true,
+    "reduce_range": true,
+    "per_model_config": {
+        "model": {
+            "op_types": [
+                "Reshape",
+                "Concat",
+                "Expand",
+                "Sqrt",
+                "Sub",
+                "Slice",
+                "ReduceMean",
+                "Erf",
+                "Gather",
+                "Where",
+                "Shape",
+                "Transpose",
+                "Div",
+                "Softmax",
+                "Cast",
+                "Mul",
+                "MatMul",
+                "Pow",
+                "ConstantOfShape",
+                "CumSum",
+                "Unsqueeze",
+                "Not",
+                "Add",
+                "Constant",
+                "Equal"
+            ],
+            "weight_type": "QInt8"
+        }
+    }
+}

special_tokens_map.json CHANGED Viewed

@@ -9,7 +9,7 @@
   "mask_token": {
     "content": "<mask>",
     "lstrip": true,
-    "normalized": false,
     "rstrip": false,
     "single_word": false
   },

   "mask_token": {
     "content": "<mask>",
     "lstrip": true,
+    "normalized": true,
     "rstrip": false,
     "single_word": false
   },

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -15,9 +15,10 @@
     "rstrip": false,
     "single_word": false
   },
-  "model_max_length": 512,
   "pad_token": "<pad>",
   "sep_token": "</s>",
   "tokenizer_class": "CamembertTokenizer",
   "unk_token": "<unk>"
 }

     "rstrip": false,
     "single_word": false
   },
+  "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "sep_token": "</s>",
+  "sp_model_kwargs": {},
   "tokenizer_class": "CamembertTokenizer",
   "unk_token": "<unk>"
 }