LIFineTuned

Paused

App Files Files Community

alexkueck commited on Jun 19, 2023

Commit

181494a

1 Parent(s): f0f4211

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -6

app.py CHANGED Viewed

@@ -7,22 +7,36 @@ import torch
 from utils import *
 from presets import *
-#antwort=""
 ######################################################################
 #Modelle und Tokenizer
-#Hugging Chat nutzen
-# Create a chatbot connection
-#chatbot = hugchat.ChatBot(cookie_path="cookies.json")
 #Alternativ mit beliebigen Modellen:
 base_model = "project-baize/baize-v2-7b"  #load_8bit = False (in load_tokenizer_and_model)
 #base_model = "TheBloke/airoboros-13B-HF"  #load_8bit = False (in load_tokenizer_and_model)
 #base_model = "EleutherAI/gpt-neo-1.3B"    #load_8bit = False (in load_tokenizer_and_model)
 #base_model = "TheBloke/airoboros-13B-HF"   #load_8bit = True
 tokenizer,model,device = load_tokenizer_and_model(base_model,False)
-tokenized_datasets = datasets.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text"])
 ########################################################################

 from utils import *
 from presets import *
 ######################################################################
 #Modelle und Tokenizer
 #Alternativ mit beliebigen Modellen:
 base_model = "project-baize/baize-v2-7b"  #load_8bit = False (in load_tokenizer_and_model)
 #base_model = "TheBloke/airoboros-13B-HF"  #load_8bit = False (in load_tokenizer_and_model)
 #base_model = "EleutherAI/gpt-neo-1.3B"    #load_8bit = False (in load_tokenizer_and_model)
 #base_model = "TheBloke/airoboros-13B-HF"   #load_8bit = True
 tokenizer,model,device = load_tokenizer_and_model(base_model,False)
+dataset_neu = daten_laden("alexkueck/tis")
+###################################
+#Vorbereiten für das training der neuen Daten
+#Datensets in den Tokenizer schieben...
+def tokenize_function(examples):
+    return tokenizer(examples["text"])
+#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
+tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text"])
+#den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
+#das macht die map-Funktion und das Attribut batched = True
+#man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...
+#eigentlich nimmt man als block_size die max. Länge in der das Model trainiert wurde -> könnte aber zu groß sein für den RAm der GPU , daher hier 128 gewählt
+# block_size = tokenizer.model_max_length
+block_size = 128
 ########################################################################