Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
@@ -52,7 +52,7 @@ dataset_neu = daten_laden("alexkueck/tis")
|
|
52 |
#############################################
|
53 |
|
54 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
55 |
-
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4)
|
56 |
|
57 |
#den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
|
58 |
#das macht die map-Funktion und das Attribut batched = True
|
|
|
52 |
#############################################
|
53 |
|
54 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
55 |
+
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
|
56 |
|
57 |
#den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
|
58 |
#das macht die map-Funktion und das Attribut batched = True
|