File size: 2,105 Bytes
85f4207
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
!pip install transformers accelerate peft torch datasets
from datasets import load_dataset

dataset = load_dataset("Mahler60/yuuka_lore")  # Cambia al nombre de tu dataset

from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
from peft import get_peft_model, LoraConfig, TaskType
import json

# 1. Cargar el modelo base y el tokenizer
model_name = "EleutherAI/gpt-neox-20b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 2. Configurar LoRA (ajuste eficiente)
peft_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,  # Modelo de lenguaje causal
    r=8,                           # Dimensión de las matrices
    lora_alpha=16,                 # Factor de escalado
    lora_dropout=0.1               # Dropout para evitar sobreajuste
)
model = get_peft_model(model, peft_config)

# 3. Cargar los datos desde el archivo JSON
data = []
with open("Yuuka-Proto.JSON", "r") as file:
    for line in file:
        example = json.loads(line.strip())
        prompt = example["prompt"]
        response = example["response"]
        combined = f"{prompt} {response}"  # Concatenamos prompt + respuesta como secuencia
        data.append(combined)

# 4. Tokenizar el dataset
tokenized_data = tokenizer(data, padding=True, truncation=True, return_tensors="pt")

# 5. Configurar argumentos de entrenamiento
training_args = TrainingArguments(
    output_dir="./results",           # Carpeta donde guardar resultados
    per_device_train_batch_size=1,    # Tamaño del batch
    num_train_epochs=1,               # Número de épocas
    logging_dir="./logs",             # Carpeta para logs
    save_steps=10,                    # Guardar cada X pasos
)

# 6. Configurar el Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_data,     # Dataset tokenizado
)

# 7. Entrenar el modelo
trainer.train()

# 8. Guardar el modelo ajustado
model.save_pretrained("./ajustado")
tokenizer.save_pretrained("./ajustado")