Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
@@ -170,7 +170,7 @@ dataset_neu = daten_laden("yelp_review_full")
|
|
170 |
print ("################################")
|
171 |
print("Datenset vorbereiten")
|
172 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
173 |
-
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4) #, remove_columns=["id","text"])
|
174 |
|
175 |
#wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
|
176 |
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
|
|
|
170 |
print ("################################")
|
171 |
print("Datenset vorbereiten")
|
172 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
173 |
+
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text","label"]) #, remove_columns=["id","text"])
|
174 |
|
175 |
#wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
|
176 |
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
|