LIFineTuned

Paused

alexkueck commited on Aug 14, 2023

Commit

2847d97

1 Parent(s): 605f16c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -190,12 +190,8 @@ block_size = 128
 #nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
 #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
-lm_datasets = tokenized_datasets.map(
-    group_texts,
-    batched=True,
-    batch_size=1000,
-    num_proc=4,
-)
 # Batches von Daten zusammenfassen
 tokenizer.pad_token = tokenizer.eos_token

 #nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
 #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
+#lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
+lm_datasets = tokenized_datasets
 # Batches von Daten zusammenfassen
 tokenizer.pad_token = tokenizer.eos_token