LIFineTuned

Paused

App Files Files Community

alexkueck commited on Aug 14, 2023

Commit

2e91302

1 Parent(s): 8dd7265

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -9

app.py CHANGED Viewed

@@ -160,9 +160,9 @@ tokenizer.pad_token_id = 0
 ####################################################
 #Datensets für Finetuning laden
-#dataset_neu = daten_laden("alexkueck/tis")
 #dataset_neu = daten_laden("EleutherAI/pile")
-dataset_neu = daten_laden("yelp_review_full")
 #############################################
 #Vorbereiten für das Training der neuen Daten
@@ -173,8 +173,8 @@ print("Datenset vorbereiten")
 tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text","label"]) #, remove_columns=["id","text"])
 #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
-small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
-small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
 #Probe ansehen - zum überprüfen...
 print('##################Beispiel Datensatz ################')
@@ -191,7 +191,7 @@ block_size = 128
 #nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
 #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
 #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
 # Batches von Daten zusammenfassen
 data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
@@ -254,10 +254,10 @@ print ("trainer")
 trainer = Trainer(
         model=model,
         args=training_args,
-        #train_dataset=lm_datasets["train"],
-        #eval_dataset=lm_datasets["test"],
-        train_dataset=small_train_dataset,
-        eval_dataset=small_eval_dataset,
         data_collator=data_collator,
         tokenizer=tokenizer,
         compute_metrics=compute_metrics,

 ####################################################
 #Datensets für Finetuning laden
+dataset_neu = daten_laden("alexkueck/tis")
 #dataset_neu = daten_laden("EleutherAI/pile")
+#dataset_neu = daten_laden("yelp_review_full")
 #############################################
 #Vorbereiten für das Training der neuen Daten
 tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text","label"]) #, remove_columns=["id","text"])
 #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
+#small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
+#small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
 #Probe ansehen - zum überprüfen...
 print('##################Beispiel Datensatz ################')
 #nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
 #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
 #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
+lm_datasets = tokenized_datasets
 # Batches von Daten zusammenfassen
 data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
 trainer = Trainer(
         model=model,
         args=training_args,
+        train_dataset=lm_datasets["train"],
+        eval_dataset=lm_datasets["test"],
+        #train_dataset=small_train_dataset,
+        #eval_dataset=small_eval_dataset,
         data_collator=data_collator,
         tokenizer=tokenizer,
         compute_metrics=compute_metrics,