Model save

Browse files

Files changed (15) hide show

README.md +109 -0
adapter_config.json +25 -0
adapter_model.safetensors +3 -0
all_results.json +13 -0
eval_results.json +8 -0
runs/Jan01_20-57-04_f63ae9056bcd/events.out.tfevents.1704142650.f63ae9056bcd.945948.0 +3 -0
runs/Jan01_20-58-10_f63ae9056bcd/events.out.tfevents.1704142713.f63ae9056bcd.947227.0 +3 -0
runs/Jan01_20-58-10_f63ae9056bcd/events.out.tfevents.1704146527.f63ae9056bcd.947227.1 +3 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +43 -0
train_results.json +8 -0
trainer_state.json +470 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,109 @@

+---
+tags:
+- generated_from_trainer
+model-index:
+- name: vicuna-adv-robust-u50-sft-lora
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# vicuna-adv-robust-u50-sft-lora
+This model was trained from scratch on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.2125
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0003
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 16
+- total_train_batch_size: 512
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- num_epochs: 50
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| No log        | 0     | 0    | 2.4952          |
+| 2.5615        | 1.09  | 1    | 2.5270          |
+| 2.5615        | 1.09  | 1    | 2.5362          |
+| 2.5615        | 3.03  | 2    | 2.5342          |
+| 2.5615        | 4.12  | 3    | 2.2735          |
+| 2.5615        | 4.12  | 3    | 2.3209          |
+| 2.5615        | 6.06  | 4    | 2.1017          |
+| 2.363         | 7.15  | 5    | 2.0121          |
+| 2.363         | 7.15  | 5    | 2.0751          |
+| 2.363         | 9.09  | 6    | 1.9646          |
+| 2.363         | 9.09  | 6    | 1.8912          |
+| 2.363         | 11.03 | 7    | 1.8100          |
+| 2.363         | 12.12 | 8    | 1.8144          |
+| 2.363         | 12.12 | 8    | 1.7983          |
+| 2.363         | 14.06 | 9    | 1.7634          |
+| 1.9009        | 15.15 | 10   | 1.7628          |
+| 1.9009        | 15.15 | 10   | 1.7354          |
+| 1.9009        | 17.09 | 11   | 1.7343          |
+| 1.9009        | 17.09 | 11   | 1.7232          |
+| 1.9009        | 19.03 | 12   | 1.6737          |
+| 1.9009        | 20.12 | 13   | 1.6418          |
+| 1.9009        | 20.12 | 13   | 1.6635          |
+| 1.9009        | 22.06 | 14   | 1.6280          |
+| 1.7031        | 23.15 | 15   | 1.6042          |
+| 1.7031        | 23.15 | 15   | 1.6120          |
+| 1.7031        | 25.09 | 16   | 1.5792          |
+| 1.7031        | 25.09 | 16   | 1.6128          |
+| 1.7031        | 27.03 | 17   | 1.5468          |
+| 1.7031        | 28.12 | 18   | 1.5303          |
+| 1.7031        | 28.12 | 18   | 1.5160          |
+| 1.7031        | 30.06 | 19   | 1.5195          |
+| 1.5968        | 31.15 | 20   | 1.5098          |
+| 1.5968        | 31.15 | 20   | 1.4775          |
+| 1.5968        | 33.09 | 21   | 1.4770          |
+| 1.5968        | 33.09 | 21   | 1.4588          |
+| 1.5968        | 35.03 | 22   | 1.4474          |
+| 1.5968        | 36.12 | 23   | 1.4240          |
+| 1.5968        | 36.12 | 23   | 1.4164          |
+| 1.5968        | 38.06 | 24   | 1.4060          |
+| 1.4776        | 39.15 | 25   | 1.3753          |
+| 1.4776        | 39.15 | 25   | 1.3858          |
+| 1.4776        | 41.09 | 26   | 1.3822          |
+| 1.4776        | 41.09 | 26   | 1.3268          |
+| 1.4776        | 43.03 | 27   | 1.3443          |
+| 1.4776        | 44.12 | 28   | 1.3259          |
+| 1.4776        | 44.12 | 28   | 1.3117          |
+| 1.4776        | 46.06 | 29   | 1.3105          |
+| 1.3585        | 47.15 | 30   | 1.2553          |
+| 1.3585        | 47.15 | 30   | 1.2755          |
+| 1.3585        | 49.09 | 31   | 1.2036          |
+### Framework versions
+- Transformers 4.35.0
+- Pytorch 2.1.0a0+32f93b1
+- Datasets 2.14.6
+- Tokenizers 0.14.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/data/models/vicuna-7b-v1.3",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "o_proj",
+    "v_proj",
+    "k_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf6e37dabf54b5340f25cf81b486d504f46e26793e27545eb0e5ab0fea10a8fd
+size 134252592

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 49.09,
+    "eval_loss": 1.2125475406646729,
+    "eval_runtime": 2.6467,
+    "eval_samples": 234,
+    "eval_samples_per_second": 88.413,
+    "eval_steps_per_second": 3.023,
+    "train_loss": 1.7344687215743526,
+    "train_runtime": 3811.391,
+    "train_samples": 2097,
+    "train_samples_per_second": 27.51,
+    "train_steps_per_second": 0.052
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 49.09,
+    "eval_loss": 1.2125475406646729,
+    "eval_runtime": 2.6467,
+    "eval_samples": 234,
+    "eval_samples_per_second": 88.413,
+    "eval_steps_per_second": 3.023
+}

runs/Jan01_20-57-04_f63ae9056bcd/events.out.tfevents.1704142650.f63ae9056bcd.945948.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6aae9189ac5944f1e0e1446936883e5ed04896dd68258d936796f415f6b2b559
+size 4327

runs/Jan01_20-58-10_f63ae9056bcd/events.out.tfevents.1704142713.f63ae9056bcd.947227.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:671acf56c0cc21563050b3f8c02017e477041aff01f8ba28f9bab30bd87d750b
+size 19043

runs/Jan01_20-58-10_f63ae9056bcd/events.out.tfevents.1704146527.f63ae9056bcd.947227.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff07bf6c4478ae0e940a31f5203a43c267b2ad3adedef0d11128fd370a19ca43
+size 306

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|user|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|system|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|assistant|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|assistant|>' }}\n{% endif %}\n{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 2048,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 49.09,
+    "train_loss": 1.7344687215743526,
+    "train_runtime": 3811.391,
+    "train_samples": 2097,
+    "train_samples_per_second": 27.51,
+    "train_steps_per_second": 0.052
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,470 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 49.09090909090909,
+  "eval_steps": 500,
+  "global_step": 31,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_loss": 2.495208501815796,
+      "eval_runtime": 2.7046,
+      "eval_samples_per_second": 86.518,
+      "eval_steps_per_second": 2.958,
+      "step": 0
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0002999814948722491,
+      "loss": 2.5615,
+      "step": 1
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 2.527021646499634,
+      "eval_runtime": 2.6357,
+      "eval_samples_per_second": 88.78,
+      "eval_steps_per_second": 3.035,
+      "step": 1
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 2.5362284183502197,
+      "eval_runtime": 2.6589,
+      "eval_samples_per_second": 88.005,
+      "eval_steps_per_second": 3.009,
+      "step": 1
+    },
+    {
+      "epoch": 3.03,
+      "eval_loss": 2.5341787338256836,
+      "eval_runtime": 2.6589,
+      "eval_samples_per_second": 88.007,
+      "eval_steps_per_second": 3.009,
+      "step": 2
+    },
+    {
+      "epoch": 4.12,
+      "eval_loss": 2.2734625339508057,
+      "eval_runtime": 2.6648,
+      "eval_samples_per_second": 87.812,
+      "eval_steps_per_second": 3.002,
+      "step": 3
+    },
+    {
+      "epoch": 4.12,
+      "eval_loss": 2.3209266662597656,
+      "eval_runtime": 2.6531,
+      "eval_samples_per_second": 88.198,
+      "eval_steps_per_second": 3.015,
+      "step": 3
+    },
+    {
+      "epoch": 6.06,
+      "eval_loss": 2.1017019748687744,
+      "eval_runtime": 2.6605,
+      "eval_samples_per_second": 87.954,
+      "eval_steps_per_second": 3.007,
+      "step": 4
+    },
+    {
+      "epoch": 7.15,
+      "learning_rate": 0.00029953760005996916,
+      "loss": 2.363,
+      "step": 5
+    },
+    {
+      "epoch": 7.15,
+      "eval_loss": 2.012136697769165,
+      "eval_runtime": 2.6573,
+      "eval_samples_per_second": 88.061,
+      "eval_steps_per_second": 3.011,
+      "step": 5
+    },
+    {
+      "epoch": 7.15,
+      "eval_loss": 2.0751442909240723,
+      "eval_runtime": 2.6638,
+      "eval_samples_per_second": 87.844,
+      "eval_steps_per_second": 3.003,
+      "step": 5
+    },
+    {
+      "epoch": 9.09,
+      "eval_loss": 1.964595079421997,
+      "eval_runtime": 2.7098,
+      "eval_samples_per_second": 86.353,
+      "eval_steps_per_second": 2.952,
+      "step": 6
+    },
+    {
+      "epoch": 9.09,
+      "eval_loss": 1.8911688327789307,
+      "eval_runtime": 2.6643,
+      "eval_samples_per_second": 87.829,
+      "eval_steps_per_second": 3.003,
+      "step": 6
+    },
+    {
+      "epoch": 11.03,
+      "eval_loss": 1.809972882270813,
+      "eval_runtime": 2.6547,
+      "eval_samples_per_second": 88.146,
+      "eval_steps_per_second": 3.014,
+      "step": 7
+    },
+    {
+      "epoch": 12.12,
+      "eval_loss": 1.8143646717071533,
+      "eval_runtime": 2.6683,
+      "eval_samples_per_second": 87.697,
+      "eval_steps_per_second": 2.998,
+      "step": 8
+    },
+    {
+      "epoch": 12.12,
+      "eval_loss": 1.7983335256576538,
+      "eval_runtime": 2.6503,
+      "eval_samples_per_second": 88.291,
+      "eval_steps_per_second": 3.018,
+      "step": 8
+    },
+    {
+      "epoch": 14.06,
+      "eval_loss": 1.7633870840072632,
+      "eval_runtime": 2.6612,
+      "eval_samples_per_second": 87.931,
+      "eval_steps_per_second": 3.006,
+      "step": 9
+    },
+    {
+      "epoch": 15.15,
+      "learning_rate": 0.00029815325108927063,
+      "loss": 1.9009,
+      "step": 10
+    },
+    {
+      "epoch": 15.15,
+      "eval_loss": 1.762792706489563,
+      "eval_runtime": 2.6498,
+      "eval_samples_per_second": 88.31,
+      "eval_steps_per_second": 3.019,
+      "step": 10
+    },
+    {
+      "epoch": 15.15,
+      "eval_loss": 1.7354298830032349,
+      "eval_runtime": 2.6595,
+      "eval_samples_per_second": 87.986,
+      "eval_steps_per_second": 3.008,
+      "step": 10
+    },
+    {
+      "epoch": 17.09,
+      "eval_loss": 1.7343316078186035,
+      "eval_runtime": 2.6543,
+      "eval_samples_per_second": 88.159,
+      "eval_steps_per_second": 3.014,
+      "step": 11
+    },
+    {
+      "epoch": 17.09,
+      "eval_loss": 1.7231522798538208,
+      "eval_runtime": 2.6679,
+      "eval_samples_per_second": 87.709,
+      "eval_steps_per_second": 2.999,
+      "step": 11
+    },
+    {
+      "epoch": 19.03,
+      "eval_loss": 1.6737045049667358,
+      "eval_runtime": 2.6731,
+      "eval_samples_per_second": 87.538,
+      "eval_steps_per_second": 2.993,
+      "step": 12
+    },
+    {
+      "epoch": 20.12,
+      "eval_loss": 1.6417571306228638,
+      "eval_runtime": 2.6611,
+      "eval_samples_per_second": 87.935,
+      "eval_steps_per_second": 3.006,
+      "step": 13
+    },
+    {
+      "epoch": 20.12,
+      "eval_loss": 1.663546085357666,
+      "eval_runtime": 2.7084,
+      "eval_samples_per_second": 86.399,
+      "eval_steps_per_second": 2.954,
+      "step": 13
+    },
+    {
+      "epoch": 22.06,
+      "eval_loss": 1.6280120611190796,
+      "eval_runtime": 2.6541,
+      "eval_samples_per_second": 88.166,
+      "eval_steps_per_second": 3.014,
+      "step": 14
+    },
+    {
+      "epoch": 23.15,
+      "learning_rate": 0.0002958554880596515,
+      "loss": 1.7031,
+      "step": 15
+    },
+    {
+      "epoch": 23.15,
+      "eval_loss": 1.6042001247406006,
+      "eval_runtime": 2.6431,
+      "eval_samples_per_second": 88.533,
+      "eval_steps_per_second": 3.027,
+      "step": 15
+    },
+    {
+      "epoch": 23.15,
+      "eval_loss": 1.6120343208312988,
+      "eval_runtime": 2.6568,
+      "eval_samples_per_second": 88.076,
+      "eval_steps_per_second": 3.011,
+      "step": 15
+    },
+    {
+      "epoch": 25.09,
+      "eval_loss": 1.579213261604309,
+      "eval_runtime": 2.6609,
+      "eval_samples_per_second": 87.94,
+      "eval_steps_per_second": 3.007,
+      "step": 16
+    },
+    {
+      "epoch": 25.09,
+      "eval_loss": 1.6127510070800781,
+      "eval_runtime": 2.6566,
+      "eval_samples_per_second": 88.082,
+      "eval_steps_per_second": 3.011,
+      "step": 16
+    },
+    {
+      "epoch": 27.03,
+      "eval_loss": 1.5467751026153564,
+      "eval_runtime": 2.655,
+      "eval_samples_per_second": 88.136,
+      "eval_steps_per_second": 3.013,
+      "step": 17
+    },
+    {
+      "epoch": 28.12,
+      "eval_loss": 1.530348539352417,
+      "eval_runtime": 2.6531,
+      "eval_samples_per_second": 88.197,
+      "eval_steps_per_second": 3.015,
+      "step": 18
+    },
+    {
+      "epoch": 28.12,
+      "eval_loss": 1.5159918069839478,
+      "eval_runtime": 2.6518,
+      "eval_samples_per_second": 88.241,
+      "eval_steps_per_second": 3.017,
+      "step": 18
+    },
+    {
+      "epoch": 30.06,
+      "eval_loss": 1.5194865465164185,
+      "eval_runtime": 2.6595,
+      "eval_samples_per_second": 87.987,
+      "eval_steps_per_second": 3.008,
+      "step": 19
+    },
+    {
+      "epoch": 31.15,
+      "learning_rate": 0.00029265847744427303,
+      "loss": 1.5968,
+      "step": 20
+    },
+    {
+      "epoch": 31.15,
+      "eval_loss": 1.5098381042480469,
+      "eval_runtime": 2.6396,
+      "eval_samples_per_second": 88.651,
+      "eval_steps_per_second": 3.031,
+      "step": 20
+    },
+    {
+      "epoch": 31.15,
+      "eval_loss": 1.4774686098098755,
+      "eval_runtime": 2.6606,
+      "eval_samples_per_second": 87.951,
+      "eval_steps_per_second": 3.007,
+      "step": 20
+    },
+    {
+      "epoch": 33.09,
+      "eval_loss": 1.4770317077636719,
+      "eval_runtime": 2.6523,
+      "eval_samples_per_second": 88.225,
+      "eval_steps_per_second": 3.016,
+      "step": 21
+    },
+    {
+      "epoch": 33.09,
+      "eval_loss": 1.4588351249694824,
+      "eval_runtime": 2.6529,
+      "eval_samples_per_second": 88.205,
+      "eval_steps_per_second": 3.016,
+      "step": 21
+    },
+    {
+      "epoch": 35.03,
+      "eval_loss": 1.4474384784698486,
+      "eval_runtime": 2.6678,
+      "eval_samples_per_second": 87.711,
+      "eval_steps_per_second": 2.999,
+      "step": 22
+    },
+    {
+      "epoch": 36.12,
+      "eval_loss": 1.424033761024475,
+      "eval_runtime": 2.6514,
+      "eval_samples_per_second": 88.254,
+      "eval_steps_per_second": 3.017,
+      "step": 23
+    },
+    {
+      "epoch": 36.12,
+      "eval_loss": 1.4164339303970337,
+      "eval_runtime": 2.6554,
+      "eval_samples_per_second": 88.121,
+      "eval_steps_per_second": 3.013,
+      "step": 23
+    },
+    {
+      "epoch": 38.06,
+      "eval_loss": 1.4059854745864868,
+      "eval_runtime": 2.6536,
+      "eval_samples_per_second": 88.181,
+      "eval_steps_per_second": 3.015,
+      "step": 24
+    },
+    {
+      "epoch": 39.15,
+      "learning_rate": 0.000288581929876693,
+      "loss": 1.4776,
+      "step": 25
+    },
+    {
+      "epoch": 39.15,
+      "eval_loss": 1.3752561807632446,
+      "eval_runtime": 2.6459,
+      "eval_samples_per_second": 88.439,
+      "eval_steps_per_second": 3.024,
+      "step": 25
+    },
+    {
+      "epoch": 39.15,
+      "eval_loss": 1.385780930519104,
+      "eval_runtime": 2.667,
+      "eval_samples_per_second": 87.738,
+      "eval_steps_per_second": 3.0,
+      "step": 25
+    },
+    {
+      "epoch": 41.09,
+      "eval_loss": 1.3821604251861572,
+      "eval_runtime": 2.6548,
+      "eval_samples_per_second": 88.141,
+      "eval_steps_per_second": 3.013,
+      "step": 26
+    },
+    {
+      "epoch": 41.09,
+      "eval_loss": 1.3268494606018066,
+      "eval_runtime": 2.6901,
+      "eval_samples_per_second": 86.986,
+      "eval_steps_per_second": 2.974,
+      "step": 26
+    },
+    {
+      "epoch": 43.03,
+      "eval_loss": 1.3443068265914917,
+      "eval_runtime": 2.6512,
+      "eval_samples_per_second": 88.263,
+      "eval_steps_per_second": 3.018,
+      "step": 27
+    },
+    {
+      "epoch": 44.12,
+      "eval_loss": 1.3258930444717407,
+      "eval_runtime": 2.6544,
+      "eval_samples_per_second": 88.156,
+      "eval_steps_per_second": 3.014,
+      "step": 28
+    },
+    {
+      "epoch": 44.12,
+      "eval_loss": 1.311697006225586,
+      "eval_runtime": 2.6815,
+      "eval_samples_per_second": 87.264,
+      "eval_steps_per_second": 2.983,
+      "step": 28
+    },
+    {
+      "epoch": 46.06,
+      "eval_loss": 1.3104833364486694,
+      "eval_runtime": 2.6829,
+      "eval_samples_per_second": 87.218,
+      "eval_steps_per_second": 2.982,
+      "step": 29
+    },
+    {
+      "epoch": 47.15,
+      "learning_rate": 0.00028365097862825513,
+      "loss": 1.3585,
+      "step": 30
+    },
+    {
+      "epoch": 47.15,
+      "eval_loss": 1.2553305625915527,
+      "eval_runtime": 2.8251,
+      "eval_samples_per_second": 82.83,
+      "eval_steps_per_second": 2.832,
+      "step": 30
+    },
+    {
+      "epoch": 47.15,
+      "eval_loss": 1.275472640991211,
+      "eval_runtime": 2.6596,
+      "eval_samples_per_second": 87.983,
+      "eval_steps_per_second": 3.008,
+      "step": 30
+    },
+    {
+      "epoch": 49.09,
+      "eval_loss": 1.2036432027816772,
+      "eval_runtime": 2.6726,
+      "eval_samples_per_second": 87.554,
+      "eval_steps_per_second": 2.993,
+      "step": 31
+    },
+    {
+      "epoch": 49.09,
+      "step": 31,
+      "total_flos": 8700902454067200.0,
+      "train_loss": 1.7344687215743526,
+      "train_runtime": 3811.391,
+      "train_samples_per_second": 27.51,
+      "train_steps_per_second": 0.052
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 200,
+  "num_train_epochs": 50,
+  "save_steps": 500,
+  "total_flos": 8700902454067200.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fa5152ae64c2764ded13bdb72625ad178fb28b8ba6f06f38d58ed5a17690ba8
+size 5688