LIFineTuned

Paused

alexkueck commited on Jun 21, 2023

Commit

33dbd92

1 Parent(s): f0e3f6d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,7 +13,7 @@ from transformers import Trainer, TrainingArguments
 #####################################################
 #Datensets in den Tokenizer schieben...
 def tokenize_function(examples):
-    return tokenizer(examples["text"])
 #Funktion, die den gegebenen Text aus dem Datenset gruppiert
@@ -52,7 +52,7 @@ dataset_neu = daten_laden("alexkueck/tis")
 #############################################
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
-tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text"])
 #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
 #das macht die map-Funktion und das Attribut batched = True

 #####################################################
 #Datensets in den Tokenizer schieben...
 def tokenize_function(examples):
+    return tokenizer(examples["content"])
 #Funktion, die den gegebenen Text aus dem Datenset gruppiert
 #############################################
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
+tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4)
 #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
 #das macht die map-Funktion und das Attribut batched = True