Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
@@ -191,15 +191,18 @@ block_size = 128
|
|
191 |
#nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
|
192 |
#die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
|
193 |
#lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
|
194 |
-
|
|
|
|
|
|
|
195 |
|
196 |
# Batches von Daten zusammenfassen
|
197 |
tokenizer.pad_token = tokenizer.eos_token
|
198 |
-
|
199 |
|
200 |
|
201 |
print ("###############lm datasets####################")
|
202 |
-
print (tokenizer.decode(lm_datasets["train"][1]["input_ids"]))
|
203 |
#die Daten wurden nun "gereinigt" und für das Model vorbereitet.
|
204 |
#z.B. anschauen mit: tokenizer.decode(lm_datasets["train"][1]["input_ids"])
|
205 |
|
@@ -255,9 +258,11 @@ print ("trainer")
|
|
255 |
trainer = Trainer(
|
256 |
model=model,
|
257 |
args=training_args,
|
258 |
-
train_dataset=lm_datasets["train"],
|
259 |
-
eval_dataset=lm_datasets["test"],
|
260 |
-
|
|
|
|
|
261 |
tokenizer=tokenizer,
|
262 |
compute_metrics=compute_metrics,
|
263 |
)
|
|
|
191 |
#nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
|
192 |
#die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
|
193 |
#lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
|
194 |
+
|
195 |
+
#zum test nun einen Teil der DS laden
|
196 |
+
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
|
197 |
+
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
|
198 |
|
199 |
# Batches von Daten zusammenfassen
|
200 |
tokenizer.pad_token = tokenizer.eos_token
|
201 |
+
data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
|
202 |
|
203 |
|
204 |
print ("###############lm datasets####################")
|
205 |
+
#print (tokenizer.decode(lm_datasets["train"][1]["input_ids"]))
|
206 |
#die Daten wurden nun "gereinigt" und für das Model vorbereitet.
|
207 |
#z.B. anschauen mit: tokenizer.decode(lm_datasets["train"][1]["input_ids"])
|
208 |
|
|
|
258 |
trainer = Trainer(
|
259 |
model=model,
|
260 |
args=training_args,
|
261 |
+
#train_dataset=lm_datasets["train"],
|
262 |
+
#eval_dataset=lm_datasets["test"],
|
263 |
+
train_dataset=small_train_dataset,
|
264 |
+
eval_dataset=small_eval_dataset,
|
265 |
+
data_collator=data_collator,
|
266 |
tokenizer=tokenizer,
|
267 |
compute_metrics=compute_metrics,
|
268 |
)
|