Spaces:

Sofa321
/

IndoBot-AI

Sleeping

Sofa321 commited on Dec 27, 2024

Commit

ba0cabc

verified ·

1 Parent(s): af030a0

Create train-model.py

Files changed (1) hide show

train-model.py ADDED Viewed

+from transformers import Trainer, TrainingArguments, AutoModelForSequenceClassification, AutoTokenizer
+from datasets import load_dataset
+MODEL_NAME = "indobenchmark/indobert-base-p2"
+dataset = load_dataset("csv", data_files="dataset.csv")
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+def preprocess(data):
+    return tokenizer(data['pertanyaan'], padding="max_length", truncation=True)
+dataset = dataset.map(preprocess, batched=True)
+dataset = dataset.rename_column("label", "labels")
+dataset.set_format("torch", columns=["input_ids", "attention_mask", "labels"])
+model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME, num_labels=2)
+training_args = TrainingArguments(
+    output_dir="./results",
+    evaluation_strategy="epoch",
+    learning_rate=2e-5,
+    per_device_train_batch_size=16,
+    num_train_epochs=3,
+    save_total_limit=2
+)
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=dataset['train'],
+    eval_dataset=dataset['validation']
+)
+trainer.train()
+model.save_pretrained("./fine_tuned_model")