alexkueck commited on
Commit
8dd7265
·
1 Parent(s): 03ed1e0

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +1 -1
app.py CHANGED
@@ -170,7 +170,7 @@ dataset_neu = daten_laden("yelp_review_full")
170
  print ("################################")
171
  print("Datenset vorbereiten")
172
  #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
173
- tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4) #, remove_columns=["id","text"])
174
 
175
  #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
176
  small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
 
170
  print ("################################")
171
  print("Datenset vorbereiten")
172
  #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
173
+ tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text","label"]) #, remove_columns=["id","text"])
174
 
175
  #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
176
  small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))