alexkueck commited on
Commit
8acd9a0
·
1 Parent(s): 2aa5ff2

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +11 -6
app.py CHANGED
@@ -191,15 +191,18 @@ block_size = 128
191
  #nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
192
  #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
193
  #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
194
- lm_datasets = tokenized_datasets
 
 
 
195
 
196
  # Batches von Daten zusammenfassen
197
  tokenizer.pad_token = tokenizer.eos_token
198
- #data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
199
 
200
 
201
  print ("###############lm datasets####################")
202
- print (tokenizer.decode(lm_datasets["train"][1]["input_ids"]))
203
  #die Daten wurden nun "gereinigt" und für das Model vorbereitet.
204
  #z.B. anschauen mit: tokenizer.decode(lm_datasets["train"][1]["input_ids"])
205
 
@@ -255,9 +258,11 @@ print ("trainer")
255
  trainer = Trainer(
256
  model=model,
257
  args=training_args,
258
- train_dataset=lm_datasets["train"],
259
- eval_dataset=lm_datasets["test"],
260
- #data_collator=data_collator,
 
 
261
  tokenizer=tokenizer,
262
  compute_metrics=compute_metrics,
263
  )
 
191
  #nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
192
  #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
193
  #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
194
+
195
+ #zum test nun einen Teil der DS laden
196
+ small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
197
+ small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
198
 
199
  # Batches von Daten zusammenfassen
200
  tokenizer.pad_token = tokenizer.eos_token
201
+ data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
202
 
203
 
204
  print ("###############lm datasets####################")
205
+ #print (tokenizer.decode(lm_datasets["train"][1]["input_ids"]))
206
  #die Daten wurden nun "gereinigt" und für das Model vorbereitet.
207
  #z.B. anschauen mit: tokenizer.decode(lm_datasets["train"][1]["input_ids"])
208
 
 
258
  trainer = Trainer(
259
  model=model,
260
  args=training_args,
261
+ #train_dataset=lm_datasets["train"],
262
+ #eval_dataset=lm_datasets["test"],
263
+ train_dataset=small_train_dataset,
264
+ eval_dataset=small_eval_dataset,
265
+ data_collator=data_collator,
266
  tokenizer=tokenizer,
267
  compute_metrics=compute_metrics,
268
  )