alexkueck commited on
Commit
33dbd92
·
1 Parent(s): f0e3f6d

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +2 -2
app.py CHANGED
@@ -13,7 +13,7 @@ from transformers import Trainer, TrainingArguments
13
  #####################################################
14
  #Datensets in den Tokenizer schieben...
15
  def tokenize_function(examples):
16
- return tokenizer(examples["text"])
17
 
18
 
19
  #Funktion, die den gegebenen Text aus dem Datenset gruppiert
@@ -52,7 +52,7 @@ dataset_neu = daten_laden("alexkueck/tis")
52
  #############################################
53
 
54
  #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
55
- tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text"])
56
 
57
  #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
58
  #das macht die map-Funktion und das Attribut batched = True
 
13
  #####################################################
14
  #Datensets in den Tokenizer schieben...
15
  def tokenize_function(examples):
16
+ return tokenizer(examples["content"])
17
 
18
 
19
  #Funktion, die den gegebenen Text aus dem Datenset gruppiert
 
52
  #############################################
53
 
54
  #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
55
+ tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4)
56
 
57
  #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
58
  #das macht die map-Funktion und das Attribut batched = True