alexkueck commited on
Commit
f0c1854
·
1 Parent(s): 7cdb1c4

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +3 -26
app.py CHANGED
@@ -9,7 +9,6 @@ import torch
9
  from utils import *
10
  from presets import *
11
  from transformers import Trainer, TrainingArguments, DataCollatorForLanguageModeling
12
- from setfit import SetFitModel, SetFitTrainer
13
  from sentence_transformers.losses import CosineSimilarityLoss
14
  import numpy as np
15
  import evaluate
@@ -133,12 +132,6 @@ base_model = "EleutherAI/gpt-neo-1.3B" #load_8bit = False (in load_tokenizer_
133
  #Tokenizer und Model laden
134
  #tokenizer,model,device = load_tokenizer_and_model(base_model, False)
135
 
136
- #################################################
137
- # Few-Shot Training!!!!!!!!!
138
- #################################################
139
- # Load SetFit model from Hub
140
- tokenizer,model,device = load_tokenizer_and_model_setFit(base_model, False)
141
-
142
 
143
  #tokenizer.add_special_tokens({'pad_token': '[PAD]'}) #not necessary with fast Toekenizers like GPT2
144
  '''
@@ -171,8 +164,7 @@ dataset_neu = daten_laden("alexkueck/tis")
171
  #############################################
172
  print ("################################")
173
  print("Datenset vorbereiten")
174
- #für den SetFit-Trainer muss man die columns 'text' und 'label' haben - in TIS gibt es noch die 'id'
175
- column_names = ['id', 'text', 'label']
176
  #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
177
  tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4 ) #, remove_columns=["id","text"])
178
 
@@ -254,7 +246,7 @@ training_args = TrainingArguments(
254
  #Trainer zusammenstellen
255
  print ("################################")
256
  print ("trainer")
257
- '''
258
  trainer = Trainer(
259
  model=model,
260
  args=training_args,
@@ -266,7 +258,7 @@ trainer = Trainer(
266
  tokenizer=tokenizer,
267
  compute_metrics=compute_metrics,
268
  )
269
- '''
270
 
271
  ###############################################
272
  # Special QA Trainer...#
@@ -286,21 +278,6 @@ trainer = QuestionAnsweringTrainer(
286
  #################################################
287
 
288
 
289
- #################################################
290
- # Few-Shot Training!!!!!!!!!
291
- #################################################
292
-
293
- # Create Few-Shot trainer
294
- trainer = SetFitTrainer(
295
- model=model,
296
- train_dataset=lm_datasets["train"],
297
- eval_dataset=lm_datasets["test"],
298
- loss_class=CosineSimilarityLoss,
299
- column_mapping = ['id', 'text', 'label'],
300
- batch_size=16,
301
- num_iterations=20, # Number of text pairs to generate for contrastive learning
302
- num_epochs=1 # Number of epochs to use for contrastive learning
303
- )
304
 
305
  '''
306
  #################################################
 
9
  from utils import *
10
  from presets import *
11
  from transformers import Trainer, TrainingArguments, DataCollatorForLanguageModeling
 
12
  from sentence_transformers.losses import CosineSimilarityLoss
13
  import numpy as np
14
  import evaluate
 
132
  #Tokenizer und Model laden
133
  #tokenizer,model,device = load_tokenizer_and_model(base_model, False)
134
 
 
 
 
 
 
 
135
 
136
  #tokenizer.add_special_tokens({'pad_token': '[PAD]'}) #not necessary with fast Toekenizers like GPT2
137
  '''
 
164
  #############################################
165
  print ("################################")
166
  print("Datenset vorbereiten")
167
+
 
168
  #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
169
  tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4 ) #, remove_columns=["id","text"])
170
 
 
246
  #Trainer zusammenstellen
247
  print ("################################")
248
  print ("trainer")
249
+
250
  trainer = Trainer(
251
  model=model,
252
  args=training_args,
 
258
  tokenizer=tokenizer,
259
  compute_metrics=compute_metrics,
260
  )
261
+
262
 
263
  ###############################################
264
  # Special QA Trainer...#
 
278
  #################################################
279
 
280
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
281
 
282
  '''
283
  #################################################