LIFineTuned

Paused

alexkueck commited on Aug 14, 2023

Commit

8dd7265

1 Parent(s): 03ed1e0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -170,7 +170,7 @@ dataset_neu = daten_laden("yelp_review_full")
 print ("################################")
 print("Datenset vorbereiten")
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
-tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4) #, remove_columns=["id","text"])
 #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
 small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))

 print ("################################")
 print("Datenset vorbereiten")
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
+tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text","label"]) #, remove_columns=["id","text"])
 #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
 small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))