Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
@@ -43,7 +43,6 @@ def group_texts(examples):
|
|
43 |
xxx = os.getenv("TOKEN")
|
44 |
login(token=xxx)
|
45 |
#Modelle und Tokenizer
|
46 |
-
model_name = "alexkueck/LIFineTuned"
|
47 |
|
48 |
#Alternativ mit beliebigen Modellen:
|
49 |
base_model = "project-baize/baize-v2-7b" #load_8bit = False (in load_tokenizer_and_model)
|
@@ -63,7 +62,7 @@ dataset_neu = daten_laden("alexkueck/tis")
|
|
63 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
|
64 |
|
65 |
print (tokenized_datasets["train"][4])
|
66 |
-
|
67 |
#den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
|
68 |
#das macht die map-Funktion und das Attribut batched = True
|
69 |
#man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...
|
|
|
43 |
xxx = os.getenv("TOKEN")
|
44 |
login(token=xxx)
|
45 |
#Modelle und Tokenizer
|
|
|
46 |
|
47 |
#Alternativ mit beliebigen Modellen:
|
48 |
base_model = "project-baize/baize-v2-7b" #load_8bit = False (in load_tokenizer_and_model)
|
|
|
62 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
|
63 |
|
64 |
print (tokenized_datasets["train"][4])
|
65 |
+
|
66 |
#den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
|
67 |
#das macht die map-Funktion und das Attribut batched = True
|
68 |
#man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...
|