Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
@@ -190,12 +190,8 @@ block_size = 128
|
|
190 |
|
191 |
#nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
|
192 |
#die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
|
193 |
-
lm_datasets = tokenized_datasets.map(
|
194 |
-
|
195 |
-
batched=True,
|
196 |
-
batch_size=1000,
|
197 |
-
num_proc=4,
|
198 |
-
)
|
199 |
|
200 |
# Batches von Daten zusammenfassen
|
201 |
tokenizer.pad_token = tokenizer.eos_token
|
|
|
190 |
|
191 |
#nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
|
192 |
#die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
|
193 |
+
#lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
|
194 |
+
lm_datasets = tokenized_datasets
|
|
|
|
|
|
|
|
|
195 |
|
196 |
# Batches von Daten zusammenfassen
|
197 |
tokenizer.pad_token = tokenizer.eos_token
|