데이터셋 구조
- 15만개의 train데이터와 5만개의 test데이터로 구성됐다.
- 다만 일부 데이터가 NaN인 경우가 있으며, 중복된 데이터도 존재한다.
- label이 0일 경우 부정, 1일 경우 긍정이고, document가 리뷰 텍스트다.
분류 결과
- 세개의 계정 모두 colob의 GPU 사용 제한이 넘어 끝까지 마무리하지 못함.
- midm 으로는 완벽한 결과를 출력하지 못했다.
과제 수행 결과
완벽한 미세튜닝과 테스트를 수행하지 못하여 분석불가. 과제 결과 보고서 형태로 작성.
GPU 와 메모리 관리의 중요성
- 기존 학생 신분으로 대규모 데이터를 다뤄보지 않았었다.
- 그 결과 프로젝트를 진행하더라도 버려지고 낭비되는 메모리를 신경쓸 만큼의 경험을 하지 못했었다.
- 이번에 대규모 데이터셋을 수행하면서 여러번 GPU 메모리의 한계를 느꼈으며 작성한 코드와 메모리 이용량의 연관성을 더 공부해봐야겠다는 것을 느꼈다.
lora-midm-7b-nsmc-understanding
This model is a fine-tuned version of KT-AI/midm-bitext-S-7B-inst-v1 on an unknown dataset.
Model description
More information needed
Intended uses & limitations
More information needed
Training and evaluation data
More information needed
Training procedure
Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 0.0001
- train_batch_size: 1
- eval_batch_size: 1
- seed: 42
- gradient_accumulation_steps: 2
- total_train_batch_size: 2
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.03
- training_steps: 300
- mixed_precision_training: Native AMP
Framework versions
- Transformers 4.35.2
- Pytorch 2.1.0+cu118
- Datasets 2.15.0
- Tokenizers 0.15.0
Model tree for RiverYou/lora-midm-7b-nsmc-understanding
Base model
KT-AI/midm-bitext-S-7B-inst-v1