alexkueck commited on
Commit
4b87cce
·
1 Parent(s): efb14d0

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +1 -1
app.py CHANGED
@@ -52,7 +52,7 @@ dataset_neu = daten_laden("alexkueck/tis")
52
  #############################################
53
 
54
  #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
55
- tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4)
56
 
57
  #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
58
  #das macht die map-Funktion und das Attribut batched = True
 
52
  #############################################
53
 
54
  #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
55
+ tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
56
 
57
  #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
58
  #das macht die map-Funktion und das Attribut batched = True