LIFineTuned

Paused

alexkueck commited on Aug 14, 2023

Commit

8acd9a0

1 Parent(s): 2aa5ff2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -191,15 +191,18 @@ block_size = 128
 #nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
 #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
 #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
-lm_datasets = tokenized_datasets
 # Batches von Daten zusammenfassen
 tokenizer.pad_token = tokenizer.eos_token
-#data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
 print ("###############lm datasets####################")
-print (tokenizer.decode(lm_datasets["train"][1]["input_ids"]))
 #die Daten wurden nun "gereinigt" und für das Model vorbereitet.
 #z.B. anschauen mit: tokenizer.decode(lm_datasets["train"][1]["input_ids"])
@@ -255,9 +258,11 @@ print ("trainer")
 trainer = Trainer(
         model=model,
         args=training_args,
-        train_dataset=lm_datasets["train"],
-        eval_dataset=lm_datasets["test"],
-        #data_collator=data_collator,
         tokenizer=tokenizer,
         compute_metrics=compute_metrics,
 )

 #nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
 #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
 #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
+#zum test nun einen Teil der DS laden
+small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
+small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
 # Batches von Daten zusammenfassen
 tokenizer.pad_token = tokenizer.eos_token
+data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
 print ("###############lm datasets####################")
+#print (tokenizer.decode(lm_datasets["train"][1]["input_ids"]))
 #die Daten wurden nun "gereinigt" und für das Model vorbereitet.
 #z.B. anschauen mit: tokenizer.decode(lm_datasets["train"][1]["input_ids"])
 trainer = Trainer(
         model=model,
         args=training_args,
+        #train_dataset=lm_datasets["train"],
+        #eval_dataset=lm_datasets["test"],
+        train_dataset=small_train_dataset,
+        eval_dataset=small_eval_dataset,
+        data_collator=data_collator,
         tokenizer=tokenizer,
         compute_metrics=compute_metrics,
 )