train files

Files changed (6) hide show

config.json ADDED Viewed

+{
+  "architectures": [
+    "RobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.9.0.dev0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

run_config.py ADDED Viewed

+from transformers import RobertaConfig
+model_dir = "./"  # ${MODEL_DIR}
+config = RobertaConfig.from_pretrained("roberta-large")
+config.save_pretrained(model_dir)

run_mlm_flax.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ /home/bayartsogtyadamsuren/transformers/examples/flax/language-modeling/run_mlm_flax.py

run_tokenizer.py ADDED Viewed

+from datasets import load_dataset
+from tokenizers import trainers, Tokenizer, normalizers, ByteLevelBPETokenizer
+model_dir = "./"  # ${MODEL_DIR}
+# load dataset
+dataset = load_dataset("oscar", "unshuffled_deduplicated_mn", split="train")
+# Instantiate tokenizer
+tokenizer = ByteLevelBPETokenizer()
+def batch_iterator(batch_size=1000):
+    for i in range(0, len(dataset), batch_size):
+        yield dataset[i: i + batch_size]["text"]
+# Customized training
+tokenizer.train_from_iterator(batch_iterator(), vocab_size=50265, min_frequency=2, special_tokens=[
+    "<s>",
+    "<pad>",
+    "</s>",
+    "<unk>",
+    "<mask>",
+])
+# Save files to disk
+tokenizer.save(f"{model_dir}/tokenizer.json")

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

train_mlm.sh ADDED Viewed

+./run_mlm_flax.py \
+	--output_dir="${MODEL_DIR}" \
+	--model_type="roberta" \
+	--config_name="${MODEL_DIR}" \
+	--tokenizer_name="${MODEL_DIR}" \
+	--dataset_name="oscar" \
+	--dataset_config_name="unshuffled_deduplicated_mn" \
+	--max_seq_length="128" \
+	--weight_decay="0.01" \
+	--per_device_train_batch_size="64" \
+	--per_device_eval_batch_size="64" \
+	--learning_rate="3e-4" \
+	--warmup_steps="1000" \
+	--overwrite_output_dir \
+	--pad_to_max_length \
+	--num_train_epochs="300" \
+	--adam_beta1="0.9" \
+	--adam_beta2="0.98" \
+	--push_to_hub