Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
@@ -160,9 +160,9 @@ tokenizer.pad_token_id = 0
|
|
160 |
|
161 |
####################################################
|
162 |
#Datensets für Finetuning laden
|
163 |
-
|
164 |
#dataset_neu = daten_laden("EleutherAI/pile")
|
165 |
-
dataset_neu = daten_laden("yelp_review_full")
|
166 |
|
167 |
#############################################
|
168 |
#Vorbereiten für das Training der neuen Daten
|
@@ -173,8 +173,8 @@ print("Datenset vorbereiten")
|
|
173 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text","label"]) #, remove_columns=["id","text"])
|
174 |
|
175 |
#wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
|
176 |
-
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
|
177 |
-
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
|
178 |
|
179 |
#Probe ansehen - zum überprüfen...
|
180 |
print('##################Beispiel Datensatz ################')
|
@@ -191,7 +191,7 @@ block_size = 128
|
|
191 |
#nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
|
192 |
#die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
|
193 |
#lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
|
194 |
-
|
195 |
|
196 |
# Batches von Daten zusammenfassen
|
197 |
data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
|
@@ -254,10 +254,10 @@ print ("trainer")
|
|
254 |
trainer = Trainer(
|
255 |
model=model,
|
256 |
args=training_args,
|
257 |
-
|
258 |
-
|
259 |
-
train_dataset=small_train_dataset,
|
260 |
-
eval_dataset=small_eval_dataset,
|
261 |
data_collator=data_collator,
|
262 |
tokenizer=tokenizer,
|
263 |
compute_metrics=compute_metrics,
|
|
|
160 |
|
161 |
####################################################
|
162 |
#Datensets für Finetuning laden
|
163 |
+
dataset_neu = daten_laden("alexkueck/tis")
|
164 |
#dataset_neu = daten_laden("EleutherAI/pile")
|
165 |
+
#dataset_neu = daten_laden("yelp_review_full")
|
166 |
|
167 |
#############################################
|
168 |
#Vorbereiten für das Training der neuen Daten
|
|
|
173 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text","label"]) #, remove_columns=["id","text"])
|
174 |
|
175 |
#wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
|
176 |
+
#small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
|
177 |
+
#small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
|
178 |
|
179 |
#Probe ansehen - zum überprüfen...
|
180 |
print('##################Beispiel Datensatz ################')
|
|
|
191 |
#nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
|
192 |
#die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
|
193 |
#lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
|
194 |
+
lm_datasets = tokenized_datasets
|
195 |
|
196 |
# Batches von Daten zusammenfassen
|
197 |
data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
|
|
|
254 |
trainer = Trainer(
|
255 |
model=model,
|
256 |
args=training_args,
|
257 |
+
train_dataset=lm_datasets["train"],
|
258 |
+
eval_dataset=lm_datasets["test"],
|
259 |
+
#train_dataset=small_train_dataset,
|
260 |
+
#eval_dataset=small_eval_dataset,
|
261 |
data_collator=data_collator,
|
262 |
tokenizer=tokenizer,
|
263 |
compute_metrics=compute_metrics,
|