First commit

Files changed (13) hide show

.gitattributes CHANGED Viewed

@@ -14,3 +14,4 @@
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text

 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.run.sh.swp ADDED Viewed

File without changes

config.json ADDED Viewed

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.0,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "resid_pdrop": 0.0,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "transformers_version": "4.9.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

events.out.tfevents.1626191863.t1v-n-cf89aecf-w-0.861739.3.v2 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f5a6cef1983c8dcbf34fc6d98bc192078bb1949efeea81672ee0edcf125fbd7
+size 367772

events.out.tfevents.1626201019.t1v-n-cf89aecf-w-0.880320.3.v2 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0c3cf7a5e63d4a77d3e7d14b72a3f38a9e604efcb0e78faa3ece56e96707932
+size 735617

events.out.tfevents.1626210976.t1v-n-cf89aecf-w-0.890224.3.v2 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:116109fbd23b28c6a4dc9ea828729181901502ced8d7c20ce220b9438ddc4341
+size 73496

events.out.tfevents.1626212077.t1v-n-cf89aecf-w-0.892752.3.v2 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8d395a87948d65cb9d66207f2321ec9b3cfa06afe2d800d2b246fb3aa6385eb
+size 11003489

events.out.tfevents.1626343565.t1v-n-cf89aecf-w-0.1005830.3.v2 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:a13db211fb1e8fcab57645f6987bab32b307ade0e149d5954194e5e433200c12
+size 1397738

flax_model.msgpack ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:a17e423adc844f2aaf44323c6738776964849df6d2ae7d0c0165bdd2267fbae1
+size 497764120

run.sh ADDED Viewed

+./run_clm_flax.py \
+    --output_dir="./" \
+    --model_type="gpt2" \
+    --model_name_or_path="./" \
+    --config_name="./" \
+    --tokenizer_name="./" \
+    --dataset_name="oscar" \
+    --dataset_config_name="unshuffled_deduplicated_es" \
+    --do_train \
+    --do_eval \
+    --block_size="512" \
+    --per_device_train_batch_size="64" \
+    --per_device_eval_batch_size="64" \
+    --learning_rate="5e-3" --warmup_steps="1000" \
+    --adam_beta1="0.9" --adam_beta2="0.98" --weight_decay="0.01" \
+    --overwrite_output_dir \
+    --num_train_epochs="20" \
+    --logging_steps="500" \
+    --save_steps="2500" \
+    --eval_steps="1000000" \
+    --preprocessing_num_workers="64"

run_clm_flax.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ ../../examples/flax/language-modeling/run_clm_flax.py

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

train_tokenizer.py ADDED Viewed

+#!/usr/bin/env python3
+from datasets import load_dataset
+from tokenizers import ByteLevelBPETokenizer
+# load dataset
+dataset = load_dataset("oscar", "unshuffled_deduplicated_es", split="train")
+# Instantiate tokenizer
+tokenizer = ByteLevelBPETokenizer()
+def batch_iterator(batch_size=10000):
+    for i in range(0, len(dataset), batch_size):
+        yield dataset[i: i + batch_size]["text"]
+# Customized training
+tokenizer.train_from_iterator(batch_iterator(), vocab_size=50265, min_frequency=2, special_tokens=[
+    "<s>",
+    "<pad>",
+    "</s>",
+    "<unk>",
+    "<mask>",
+])
+# Save files to disk
+tokenizer.save("./tokenizer.json")