commit tokenizer

Browse files

Files changed (9) hide show

BASELINE.yaml +447 -0
FALLBACK.yaml +447 -0
config.json +1 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +5 -0
tokenizer.json +0 -0
tokenizer_config.json +9 -0
vocab.json +0 -0

BASELINE.yaml ADDED Viewed

	@@ -0,0 +1,447 @@

+model:
+  lm_head:
+    accum_format: SAME
+    approximation_function: NONE
+    input_format: SAME
+    instance: Linear
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.drop:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.0.attn.attn_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.0.attn.c_attn:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.0.attn.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.0.attn.resid_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.0.attn.softmax:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Softmax
+    output_format: SAME
+  transformer.h.0.ln_1:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.0.ln_2:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.0.mlp.act:
+    approximation_function: NONE
+    input_format: SAME
+    instance: GELU
+    output_format: SAME
+  transformer.h.0.mlp.c_fc:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.0.mlp.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.0.mlp.dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.1.attn.attn_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.1.attn.c_attn:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.1.attn.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.1.attn.resid_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.1.attn.softmax:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Softmax
+    output_format: SAME
+  transformer.h.1.ln_1:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.1.ln_2:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.1.mlp.act:
+    approximation_function: NONE
+    input_format: SAME
+    instance: GELU
+    output_format: SAME
+  transformer.h.1.mlp.c_fc:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.1.mlp.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.1.mlp.dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.2.attn.attn_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.2.attn.c_attn:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.2.attn.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.2.attn.resid_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.2.attn.softmax:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Softmax
+    output_format: SAME
+  transformer.h.2.ln_1:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.2.ln_2:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.2.mlp.act:
+    approximation_function: NONE
+    input_format: SAME
+    instance: GELU
+    output_format: SAME
+  transformer.h.2.mlp.c_fc:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.2.mlp.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.2.mlp.dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.3.attn.attn_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.3.attn.c_attn:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.3.attn.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.3.attn.resid_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.3.attn.softmax:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Softmax
+    output_format: SAME
+  transformer.h.3.ln_1:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.3.ln_2:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.3.mlp.act:
+    approximation_function: NONE
+    input_format: SAME
+    instance: GELU
+    output_format: SAME
+  transformer.h.3.mlp.c_fc:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.3.mlp.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.3.mlp.dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.4.attn.attn_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.4.attn.c_attn:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.4.attn.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.4.attn.resid_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.4.attn.softmax:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Softmax
+    output_format: SAME
+  transformer.h.4.ln_1:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.4.ln_2:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.4.mlp.act:
+    approximation_function: NONE
+    input_format: SAME
+    instance: GELU
+    output_format: SAME
+  transformer.h.4.mlp.c_fc:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.4.mlp.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.4.mlp.dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.5.attn.attn_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.5.attn.c_attn:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.5.attn.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.5.attn.resid_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.5.attn.softmax:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Softmax
+    output_format: SAME
+  transformer.h.5.ln_1:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.5.ln_2:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.5.mlp.act:
+    approximation_function: NONE
+    input_format: SAME
+    instance: GELU
+    output_format: SAME
+  transformer.h.5.mlp.c_fc:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.5.mlp.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.h.5.mlp.dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.ln_f:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME

FALLBACK.yaml ADDED Viewed

	@@ -0,0 +1,447 @@

+model:
+  lm_head:
+    accum_format: SAME
+    approximation_function: NONE
+    input_format: SAME
+    instance: Linear
+    output_format: SAME
+    weight_format: SAME
+    weight_sparseness: DENSE
+  transformer.drop:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.0.attn.attn_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: BFP[8|8]{64,-1}(SN)
+  transformer.h.0.attn.c_attn:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: BFP[8|8]{64,-1}(SN)
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.0.attn.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.0.attn.resid_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.0.attn.softmax:
+    approximation_function: SOFTMAX(base2,float16)
+    input_format: SAME
+    instance: Softmax
+    output_format: SAME
+  transformer.h.0.ln_1:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.0.ln_2:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.0.mlp.act:
+    approximation_function: GELU(vsimd)
+    input_format: SAME
+    instance: GELU
+    output_format: SAME
+  transformer.h.0.mlp.c_fc:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.0.mlp.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.0.mlp.dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.1.attn.attn_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: BFP[8|8]{64,-1}(SN)
+  transformer.h.1.attn.c_attn:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: BFP[8|8]{64,-1}(SN)
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.1.attn.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.1.attn.resid_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.1.attn.softmax:
+    approximation_function: SOFTMAX(base2,float16)
+    input_format: SAME
+    instance: Softmax
+    output_format: SAME
+  transformer.h.1.ln_1:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.1.ln_2:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.1.mlp.act:
+    approximation_function: GELU(vsimd)
+    input_format: SAME
+    instance: GELU
+    output_format: SAME
+  transformer.h.1.mlp.c_fc:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.1.mlp.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.1.mlp.dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.2.attn.attn_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: BFP[8|8]{64,-1}(SN)
+  transformer.h.2.attn.c_attn:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: BFP[8|8]{64,-1}(SN)
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.2.attn.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.2.attn.resid_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.2.attn.softmax:
+    approximation_function: SOFTMAX(base2,float16)
+    input_format: SAME
+    instance: Softmax
+    output_format: SAME
+  transformer.h.2.ln_1:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.2.ln_2:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.2.mlp.act:
+    approximation_function: GELU(vsimd)
+    input_format: SAME
+    instance: GELU
+    output_format: SAME
+  transformer.h.2.mlp.c_fc:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.2.mlp.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.2.mlp.dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.3.attn.attn_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: BFP[8|8]{64,-1}(SN)
+  transformer.h.3.attn.c_attn:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: BFP[8|8]{64,-1}(SN)
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.3.attn.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.3.attn.resid_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.3.attn.softmax:
+    approximation_function: SOFTMAX(base2,float16)
+    input_format: SAME
+    instance: Softmax
+    output_format: SAME
+  transformer.h.3.ln_1:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.3.ln_2:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.3.mlp.act:
+    approximation_function: GELU(vsimd)
+    input_format: SAME
+    instance: GELU
+    output_format: SAME
+  transformer.h.3.mlp.c_fc:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.3.mlp.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.3.mlp.dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.4.attn.attn_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: BFP[8|8]{64,-1}(SN)
+  transformer.h.4.attn.c_attn:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: BFP[8|8]{64,-1}(SN)
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.4.attn.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.4.attn.resid_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.4.attn.softmax:
+    approximation_function: SOFTMAX(base2,float16)
+    input_format: SAME
+    instance: Softmax
+    output_format: SAME
+  transformer.h.4.ln_1:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.4.ln_2:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.4.mlp.act:
+    approximation_function: GELU(vsimd)
+    input_format: SAME
+    instance: GELU
+    output_format: SAME
+  transformer.h.4.mlp.c_fc:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.4.mlp.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.4.mlp.dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.5.attn.attn_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: BFP[8|8]{64,-1}(SN)
+  transformer.h.5.attn.c_attn:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: BFP[8|8]{64,-1}(SN)
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.5.attn.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.5.attn.resid_dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.h.5.attn.softmax:
+    approximation_function: SOFTMAX(base2,float16)
+    input_format: SAME
+    instance: Softmax
+    output_format: SAME
+  transformer.h.5.ln_1:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.5.ln_2:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME
+  transformer.h.5.mlp.act:
+    approximation_function: GELU(vsimd)
+    input_format: SAME
+    instance: GELU
+    output_format: SAME
+  transformer.h.5.mlp.c_fc:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.5.mlp.c_proj:
+    approximation_function: NONE
+    bias_format: SAME
+    input_format: BFP[8|8]{64,-1}(SN)
+    instance: HFTransformersConv1D
+    output_format: SAME
+    weight_format: BFP[8|8]{64,0}(SN)
+    weight_sparseness: DENSE
+  transformer.h.5.mlp.dropout:
+    approximation_function: NONE
+    input_format: SAME
+    instance: Dropout
+    output_format: SAME
+  transformer.ln_f:
+    approximation_function: LAYERNORM(fallback,4,float16)
+    bias_format: SAME
+    input_format: SAME
+    instance: LayerNorm
+    output_format: SAME
+    weight_format: SAME

config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"model_type": "gpt", "architectures": ["GPT2LMHeadModel"]}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6defede097d338ec69a958c71b91bc74eedcc10368cd42d84da8638c73833892
+size 334205321

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff