alexkueck commited on
Commit
2847d97
·
1 Parent(s): 605f16c

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +2 -6
app.py CHANGED
@@ -190,12 +190,8 @@ block_size = 128
190
 
191
  #nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
192
  #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
193
- lm_datasets = tokenized_datasets.map(
194
- group_texts,
195
- batched=True,
196
- batch_size=1000,
197
- num_proc=4,
198
- )
199
 
200
  # Batches von Daten zusammenfassen
201
  tokenizer.pad_token = tokenizer.eos_token
 
190
 
191
  #nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
192
  #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
193
+ #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
194
+ lm_datasets = tokenized_datasets
 
 
 
 
195
 
196
  # Batches von Daten zusammenfassen
197
  tokenizer.pad_token = tokenizer.eos_token