Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
@@ -13,7 +13,7 @@ from transformers import Trainer, TrainingArguments
|
|
13 |
#####################################################
|
14 |
#Datensets in den Tokenizer schieben...
|
15 |
def tokenize_function(examples):
|
16 |
-
return tokenizer(examples["
|
17 |
|
18 |
|
19 |
#Funktion, die den gegebenen Text aus dem Datenset gruppiert
|
@@ -52,7 +52,7 @@ dataset_neu = daten_laden("alexkueck/tis")
|
|
52 |
#############################################
|
53 |
|
54 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
55 |
-
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4
|
56 |
|
57 |
#den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
|
58 |
#das macht die map-Funktion und das Attribut batched = True
|
|
|
13 |
#####################################################
|
14 |
#Datensets in den Tokenizer schieben...
|
15 |
def tokenize_function(examples):
|
16 |
+
return tokenizer(examples["content"])
|
17 |
|
18 |
|
19 |
#Funktion, die den gegebenen Text aus dem Datenset gruppiert
|
|
|
52 |
#############################################
|
53 |
|
54 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
55 |
+
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4)
|
56 |
|
57 |
#den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
|
58 |
#das macht die map-Funktion und das Attribut batched = True
|