Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
@@ -9,7 +9,6 @@ import torch
|
|
9 |
from utils import *
|
10 |
from presets import *
|
11 |
from transformers import Trainer, TrainingArguments, DataCollatorForLanguageModeling
|
12 |
-
from setfit import SetFitModel, SetFitTrainer
|
13 |
from sentence_transformers.losses import CosineSimilarityLoss
|
14 |
import numpy as np
|
15 |
import evaluate
|
@@ -133,12 +132,6 @@ base_model = "EleutherAI/gpt-neo-1.3B" #load_8bit = False (in load_tokenizer_
|
|
133 |
#Tokenizer und Model laden
|
134 |
#tokenizer,model,device = load_tokenizer_and_model(base_model, False)
|
135 |
|
136 |
-
#################################################
|
137 |
-
# Few-Shot Training!!!!!!!!!
|
138 |
-
#################################################
|
139 |
-
# Load SetFit model from Hub
|
140 |
-
tokenizer,model,device = load_tokenizer_and_model_setFit(base_model, False)
|
141 |
-
|
142 |
|
143 |
#tokenizer.add_special_tokens({'pad_token': '[PAD]'}) #not necessary with fast Toekenizers like GPT2
|
144 |
'''
|
@@ -171,8 +164,7 @@ dataset_neu = daten_laden("alexkueck/tis")
|
|
171 |
#############################################
|
172 |
print ("################################")
|
173 |
print("Datenset vorbereiten")
|
174 |
-
|
175 |
-
column_names = ['id', 'text', 'label']
|
176 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
177 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4 ) #, remove_columns=["id","text"])
|
178 |
|
@@ -254,7 +246,7 @@ training_args = TrainingArguments(
|
|
254 |
#Trainer zusammenstellen
|
255 |
print ("################################")
|
256 |
print ("trainer")
|
257 |
-
|
258 |
trainer = Trainer(
|
259 |
model=model,
|
260 |
args=training_args,
|
@@ -266,7 +258,7 @@ trainer = Trainer(
|
|
266 |
tokenizer=tokenizer,
|
267 |
compute_metrics=compute_metrics,
|
268 |
)
|
269 |
-
|
270 |
|
271 |
###############################################
|
272 |
# Special QA Trainer...#
|
@@ -286,21 +278,6 @@ trainer = QuestionAnsweringTrainer(
|
|
286 |
#################################################
|
287 |
|
288 |
|
289 |
-
#################################################
|
290 |
-
# Few-Shot Training!!!!!!!!!
|
291 |
-
#################################################
|
292 |
-
|
293 |
-
# Create Few-Shot trainer
|
294 |
-
trainer = SetFitTrainer(
|
295 |
-
model=model,
|
296 |
-
train_dataset=lm_datasets["train"],
|
297 |
-
eval_dataset=lm_datasets["test"],
|
298 |
-
loss_class=CosineSimilarityLoss,
|
299 |
-
column_mapping = ['id', 'text', 'label'],
|
300 |
-
batch_size=16,
|
301 |
-
num_iterations=20, # Number of text pairs to generate for contrastive learning
|
302 |
-
num_epochs=1 # Number of epochs to use for contrastive learning
|
303 |
-
)
|
304 |
|
305 |
'''
|
306 |
#################################################
|
|
|
9 |
from utils import *
|
10 |
from presets import *
|
11 |
from transformers import Trainer, TrainingArguments, DataCollatorForLanguageModeling
|
|
|
12 |
from sentence_transformers.losses import CosineSimilarityLoss
|
13 |
import numpy as np
|
14 |
import evaluate
|
|
|
132 |
#Tokenizer und Model laden
|
133 |
#tokenizer,model,device = load_tokenizer_and_model(base_model, False)
|
134 |
|
|
|
|
|
|
|
|
|
|
|
|
|
135 |
|
136 |
#tokenizer.add_special_tokens({'pad_token': '[PAD]'}) #not necessary with fast Toekenizers like GPT2
|
137 |
'''
|
|
|
164 |
#############################################
|
165 |
print ("################################")
|
166 |
print("Datenset vorbereiten")
|
167 |
+
|
|
|
168 |
#alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
|
169 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4 ) #, remove_columns=["id","text"])
|
170 |
|
|
|
246 |
#Trainer zusammenstellen
|
247 |
print ("################################")
|
248 |
print ("trainer")
|
249 |
+
|
250 |
trainer = Trainer(
|
251 |
model=model,
|
252 |
args=training_args,
|
|
|
258 |
tokenizer=tokenizer,
|
259 |
compute_metrics=compute_metrics,
|
260 |
)
|
261 |
+
|
262 |
|
263 |
###############################################
|
264 |
# Special QA Trainer...#
|
|
|
278 |
#################################################
|
279 |
|
280 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
281 |
|
282 |
'''
|
283 |
#################################################
|