LIFineTuned

Paused

alexkueck commited on Jun 21, 2023

Commit

4b87cce

1 Parent(s): efb14d0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -52,7 +52,7 @@ dataset_neu = daten_laden("alexkueck/tis")
 #############################################
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
-tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4)
 #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
 #das macht die map-Funktion und das Attribut batched = True

 #############################################
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
+tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
 #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
 #das macht die map-Funktion und das Attribut batched = True