File size: 2,105 Bytes
85f4207 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 |
!pip install transformers accelerate peft torch datasets from datasets import load_dataset dataset = load_dataset("Mahler60/yuuka_lore") # Cambia al nombre de tu dataset from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer from peft import get_peft_model, LoraConfig, TaskType import json # 1. Cargar el modelo base y el tokenizer model_name = "EleutherAI/gpt-neox-20b" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) # 2. Configurar LoRA (ajuste eficiente) peft_config = LoraConfig( task_type=TaskType.CAUSAL_LM, # Modelo de lenguaje causal r=8, # Dimensión de las matrices lora_alpha=16, # Factor de escalado lora_dropout=0.1 # Dropout para evitar sobreajuste ) model = get_peft_model(model, peft_config) # 3. Cargar los datos desde el archivo JSON data = [] with open("Yuuka-Proto.JSON", "r") as file: for line in file: example = json.loads(line.strip()) prompt = example["prompt"] response = example["response"] combined = f"{prompt} {response}" # Concatenamos prompt + respuesta como secuencia data.append(combined) # 4. Tokenizar el dataset tokenized_data = tokenizer(data, padding=True, truncation=True, return_tensors="pt") # 5. Configurar argumentos de entrenamiento training_args = TrainingArguments( output_dir="./results", # Carpeta donde guardar resultados per_device_train_batch_size=1, # Tamaño del batch num_train_epochs=1, # Número de épocas logging_dir="./logs", # Carpeta para logs save_steps=10, # Guardar cada X pasos ) # 6. Configurar el Trainer trainer = Trainer( model=model, args=training_args, train_dataset=tokenized_data, # Dataset tokenizado ) # 7. Entrenar el modelo trainer.train() # 8. Guardar el modelo ajustado model.save_pretrained("./ajustado") tokenizer.save_pretrained("./ajustado") |