Spaces:

POMAHSLS
/

ITLT_Journal

Sleeping

App Files Files Community

POMAHSLS commited on Jun 21, 2024

Commit

ce03d07

verified ·

1 Parent(s): 86d0f86

Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

.gitattributes +1 -0
README.md +2 -8
finetunning.py +72 -0
journal.txt +3 -0
lastversion/config.json +35 -0
lastversion/generation_config.json +6 -0
lastversion/model.safetensors +3 -0
lastversion/special_tokens_map.json +0 -0
lastversion/tokenizer.json +0 -0
lastversion/tokenizer_config.json +43 -0
lastversion/training_args.bin +3 -0
zapusk.py +12 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+journal.txt filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,12 +1,6 @@
 ---
-title: ITLT Journal
-emoji: 🐨
-colorFrom: purple
-colorTo: red
 sdk: gradio
 sdk_version: 4.36.1
-app_file: app.py
-pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: ITLT_Journal
+app_file: zapusk.py
 sdk: gradio
 sdk_version: 4.36.1
 ---

finetunning.py ADDED Viewed

	@@ -0,0 +1,72 @@

+import re
+import os
+import transformers
+import torch
+from transformers import TextDataset, DataCollatorForLanguageModeling
+from transformers import GPT2Tokenizer, GPT2LMHeadModel
+from transformers import Trainer, TrainingArguments
+print(torch.cuda.is_available())
+def load_dataset(file_path, tokenizer, block_size=128):
+    dataset = TextDataset(
+        tokenizer=tokenizer,
+        file_path=file_path,
+        block_size=block_size,
+    )
+    return dataset
+def load_data_collator(tokenizer, mlm=False):
+    data_collator = DataCollatorForLanguageModeling(
+        tokenizer=tokenizer,
+        mlm=mlm,
+    )
+    return data_collator
+def train(train_file_path, model_name, output_dir, overwrite_output_dir,
+          per_device_train_batch_size, num_train_epochs, save_steps, resume_from_checkpoint):
+    from transformers import AutoTokenizer, AutoModelForCausalLM
+    tokenizer = AutoTokenizer.from_pretrained("malteos/gpt2-uk")
+    train_dataset = load_dataset(train_file_path, tokenizer)
+    data_collator = load_data_collator(tokenizer)
+    tokenizer.save_pretrained(output_dir)
+    model = AutoModelForCausalLM.from_pretrained("malteos/gpt2-uk")
+    model.save_pretrained(output_dir)
+    training_args = TrainingArguments(
+        output_dir=output_dir,
+        overwrite_output_dir=overwrite_output_dir,
+        per_device_train_batch_size=per_device_train_batch_size,
+        num_train_epochs=num_train_epochs,
+    )
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        data_collator=data_collator,
+        train_dataset=train_dataset,
+    )
+    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
+    trainer.save_model()
+train_directory = 'H:/Finetunning/q_and_a'
+train_file_path = 'H:/Finetunning/journal.txt'
+model_name = train_directory
+output_dir = 'H:/Finetunning/custom_full_text'
+overwrite_output_dir = False
+per_device_train_batch_size = 8
+num_train_epochs = 51
+save_steps = 50000
+print("Починаємо навчання...")
+train(
+    train_file_path=train_file_path,
+    model_name=model_name,
+    output_dir=output_dir,
+    overwrite_output_dir=overwrite_output_dir,
+    per_device_train_batch_size=per_device_train_batch_size,
+    num_train_epochs=num_train_epochs,
+    save_steps=save_steps,
+    resume_from_checkpoint=True  # False для першого разу, True - з якоїсь точки остановки
+)

journal.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:197f8a6c94ec784f2762c9707815bbecf75e6c2fff2a18f9337688c8d34c9166
+size 112245281

lastversion/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "malteos/gpt2-uk",
+  "activation_function": "gelu",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": 3072,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.1",
+  "use_cache": true,
+  "vocab_size": 50304
+}

lastversion/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.41.1"
+}

lastversion/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e087e5da6ad22b2a7f4252d9041c1f77f112c6091571d8005ee7267f5a55902
+size 497918592

lastversion/special_tokens_map.json ADDED Viewed

Binary file (582 Bytes). View file

lastversion/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

lastversion/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "<unk>"
+}

lastversion/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01b787660d6af5c39639f0bf313aa28fe2f4718ca9c0c99cce7eb1aa278fa849
+size 5112

zapusk.py ADDED Viewed

	@@ -0,0 +1,12 @@

+from transformers import pipeline
+import gradio as gr
+model = pipeline("text-generation",
+model="H:/Finetunning/lastversion")
+def predict(prompt):
+    completion = model(prompt, max_length=50)[0]["generated_text"]
+    return completion
+gr.Interface(fn=predict, inputs="text", outputs="text").launch(share=True)