--- license: cc-by-nc-4.0 base_model: KT-AI/midm-bitext-S-7B-inst-v1 tags: - generated_from_trainer model-index: - name: lora-midm-7b-nsmc-understanding results: [] --- # 데이터셋 구조 - 15만개의 train데이터와 5만개의 test데이터로 구성됐다. - 다만 일부 데이터가 NaN인 경우가 있으며, 중복된 데이터도 존재한다. - label이 0일 경우 부정, 1일 경우 긍정이고, document가 리뷰 텍스트다. # 분류 결과 - 세개의 계정 모두 colob의 GPU 사용 제한이 넘어 끝까지 마무리하지 못함. - midm 으로는 완벽한 결과를 출력하지 못했다. # 과제 수행 결과 완벽한 미세튜닝과 테스트를 수행하지 못하여 분석불가. 과제 결과 보고서 형태로 작성. ## GPU 와 메모리 관리의 중요성 - 기존 학생 신분으로 대규모 데이터를 다뤄보지 않았었다. - 그 결과 프로젝트를 진행하더라도 버려지고 낭비되는 메모리를 신경쓸 만큼의 경험을 하지 못했었다. - 이번에 대규모 데이터셋을 수행하면서 여러번 GPU 메모리의 한계를 느꼈으며 작성한 코드와 메모리 이용량의 연관성을 더 공부해봐야겠다는 것을 느꼈다. # lora-midm-7b-nsmc-understanding This model is a fine-tuned version of [KT-AI/midm-bitext-S-7B-inst-v1](https://huggingface.co/KT-AI/midm-bitext-S-7B-inst-v1) on an unknown dataset. ## Model description More information needed ## Intended uses & limitations More information needed ## Training and evaluation data More information needed ## Training procedure ### Training hyperparameters The following hyperparameters were used during training: - learning_rate: 0.0001 - train_batch_size: 1 - eval_batch_size: 1 - seed: 42 - gradient_accumulation_steps: 2 - total_train_batch_size: 2 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08 - lr_scheduler_type: cosine - lr_scheduler_warmup_ratio: 0.03 - training_steps: 300 - mixed_precision_training: Native AMP ### Framework versions - Transformers 4.35.2 - Pytorch 2.1.0+cu118 - Datasets 2.15.0 - Tokenizers 0.15.0