Spaces:

shorecode
/

gradio-3

Sleeping

Kevin Fink commited on Dec 5, 2024

Commit

1888d7d

1 Parent(s): 6662b37

dev

Files changed (1) hide show

app.py CHANGED Viewed

@@ -26,7 +26,7 @@ def fine_tune_model(model_name, dataset_name, hub_id, api_key, num_epochs, batch
         model = get_peft_model(model, lora_config)
         tokenizer = AutoTokenizer.from_pretrained(model_name)
-        max_length = 91
         try:
             tokenized_train_dataset = load_from_disk(f'{hub_id.strip()}_train_dataset')
             tokenized_test_dataset = load_from_disk(f'{hub_id.strip()}_test_dataset')
@@ -39,7 +39,7 @@ def fine_tune_model(model_name, dataset_name, hub_id, api_key, num_epochs, batch
                 model_inputs = tokenizer(
                     examples['text'],
                     max_length=max_length,  # Set to None for dynamic padding
-                    padding='longest',     # Disable padding here, we will handle it later
                     truncation=True,
                 )
@@ -47,7 +47,7 @@ def fine_tune_model(model_name, dataset_name, hub_id, api_key, num_epochs, batch
                 labels = tokenizer(
                     examples['target'],
                     max_length=max_length,  # Set to None for dynamic padding
-                    padding='longest',     # Disable padding here, we will handle it later
                     truncation=True,
                     text_target=examples['target']  # Use text_target for target text
                 )

         model = get_peft_model(model, lora_config)
         tokenizer = AutoTokenizer.from_pretrained(model_name)
+        max_length = 128
         try:
             tokenized_train_dataset = load_from_disk(f'{hub_id.strip()}_train_dataset')
             tokenized_test_dataset = load_from_disk(f'{hub_id.strip()}_test_dataset')
                 model_inputs = tokenizer(
                     examples['text'],
                     max_length=max_length,  # Set to None for dynamic padding
+                    padding='max_length',     # Disable padding here, we will handle it later
                     truncation=True,
                 )
                 labels = tokenizer(
                     examples['target'],
                     max_length=max_length,  # Set to None for dynamic padding
+                    padding='max_length',     # Disable padding here, we will handle it later
                     truncation=True,
                     text_target=examples['target']  # Use text_target for target text
                 )