alexkueck commited on
Commit
2e91302
·
1 Parent(s): 8dd7265

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +9 -9
app.py CHANGED
@@ -160,9 +160,9 @@ tokenizer.pad_token_id = 0
160
 
161
  ####################################################
162
  #Datensets für Finetuning laden
163
- #dataset_neu = daten_laden("alexkueck/tis")
164
  #dataset_neu = daten_laden("EleutherAI/pile")
165
- dataset_neu = daten_laden("yelp_review_full")
166
 
167
  #############################################
168
  #Vorbereiten für das Training der neuen Daten
@@ -173,8 +173,8 @@ print("Datenset vorbereiten")
173
  tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text","label"]) #, remove_columns=["id","text"])
174
 
175
  #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
176
- small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
177
- small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
178
 
179
  #Probe ansehen - zum überprüfen...
180
  print('##################Beispiel Datensatz ################')
@@ -191,7 +191,7 @@ block_size = 128
191
  #nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
192
  #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
193
  #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
194
-
195
 
196
  # Batches von Daten zusammenfassen
197
  data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
@@ -254,10 +254,10 @@ print ("trainer")
254
  trainer = Trainer(
255
  model=model,
256
  args=training_args,
257
- #train_dataset=lm_datasets["train"],
258
- #eval_dataset=lm_datasets["test"],
259
- train_dataset=small_train_dataset,
260
- eval_dataset=small_eval_dataset,
261
  data_collator=data_collator,
262
  tokenizer=tokenizer,
263
  compute_metrics=compute_metrics,
 
160
 
161
  ####################################################
162
  #Datensets für Finetuning laden
163
+ dataset_neu = daten_laden("alexkueck/tis")
164
  #dataset_neu = daten_laden("EleutherAI/pile")
165
+ #dataset_neu = daten_laden("yelp_review_full")
166
 
167
  #############################################
168
  #Vorbereiten für das Training der neuen Daten
 
173
  tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text","label"]) #, remove_columns=["id","text"])
174
 
175
  #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
176
+ #small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
177
+ #small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
178
 
179
  #Probe ansehen - zum überprüfen...
180
  print('##################Beispiel Datensatz ################')
 
191
  #nochmal die map-Funktion auf das bereits tokenisierte Datenset anwenden
192
  #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
193
  #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
194
+ lm_datasets = tokenized_datasets
195
 
196
  # Batches von Daten zusammenfassen
197
  data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
 
254
  trainer = Trainer(
255
  model=model,
256
  args=training_args,
257
+ train_dataset=lm_datasets["train"],
258
+ eval_dataset=lm_datasets["test"],
259
+ #train_dataset=small_train_dataset,
260
+ #eval_dataset=small_eval_dataset,
261
  data_collator=data_collator,
262
  tokenizer=tokenizer,
263
  compute_metrics=compute_metrics,