wuxianchao
/

lazylora-7b-chathf

Model card Files Files and versions Community

xianchaowu commited on Aug 1, 2023

Commit

215c0a2

1 Parent(s): fd30dcd

add mmlu eval and mmlu test

Browse files

Files changed (1) hide show

README.md +126 -61

README.md CHANGED Viewed

@@ -8,7 +8,7 @@ license: llama2
 0. using the updated [Meta's LLaMA-2 models](https://huggingface.co/meta-llama/Llama-2-7b-chat-hf).
 1. support [4-bit qlora](https://arxiv.org/abs/2305.14314), extreme GPU memory and inference time saving;
-2. better MMLU evaluation dataset results, llama2-7b's 45.3% to our 47.95% (+2.65%).
 ### Introduction
 Determine the rank of LoRA layers by the singular values of pretrained weight matrices.
@@ -85,67 +85,132 @@ model.print_trainable_parameters()
 ## MMLU result:
 ```json
-{"mmlu_loss": 1.4239519843083437,
-"mmlu_eval_accuracy_econometrics": 0.16666666666666666,
-"mmlu_eval_accuracy_college_computer_science": 0.36363636363636365,
-"mmlu_eval_accuracy_marketing": 0.8,
-"mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
-"mmlu_eval_accuracy_sociology": 0.7272727272727273,
-"mmlu_eval_accuracy_college_mathematics": 0.36363636363636365,
-"mmlu_eval_accuracy_philosophy": 0.4411764705882353,
-"mmlu_eval_accuracy_high_school_european_history": 0.5,
-"mmlu_eval_accuracy_public_relations": 0.5833333333333334,
-"mmlu_eval_accuracy_high_school_microeconomics": 0.4230769230769231,
-"mmlu_eval_accuracy_global_facts": 0.5,
-"mmlu_eval_accuracy_high_school_government_and_politics": 0.5238095238095238,
-"mmlu_eval_accuracy_anatomy": 0.5,
-"mmlu_eval_accuracy_moral_disputes": 0.4473684210526316,
-"mmlu_eval_accuracy_machine_learning": 0.36363636363636365,
-"mmlu_eval_accuracy_professional_law": 0.3,
-"mmlu_eval_accuracy_management": 0.6363636363636364,
-"mmlu_eval_accuracy_college_physics": 0.45454545454545453,
-"mmlu_eval_accuracy_prehistory": 0.5428571428571428,
-"mmlu_eval_accuracy_high_school_biology": 0.46875,
-"mmlu_eval_accuracy_nutrition": 0.6060606060606061,
-"mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
-"mmlu_eval_accuracy_computer_security": 0.18181818181818182,
-"mmlu_eval_accuracy_international_law": 0.9230769230769231,
-"mmlu_eval_accuracy_high_school_mathematics": 0.20689655172413793,
-"mmlu_eval_accuracy_miscellaneous": 0.627906976744186,
-"mmlu_eval_accuracy_high_school_macroeconomics": 0.5348837209302325,
-"mmlu_eval_accuracy_human_aging": 0.6956521739130435,
-"mmlu_eval_accuracy_conceptual_physics": 0.38461538461538464,
-"mmlu_eval_accuracy_elementary_mathematics": 0.24390243902439024,
-"mmlu_eval_accuracy_high_school_geography": 0.7272727272727273,
-"mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
-"mmlu_eval_accuracy_world_religions": 0.7368421052631579,
-"mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
-"mmlu_eval_accuracy_human_sexuality": 0.4166666666666667,
-"mmlu_eval_accuracy_security_studies": 0.5555555555555556,
-"mmlu_eval_accuracy_high_school_us_history": 0.7727272727272727,
-"mmlu_eval_accuracy_high_school_chemistry": 0.2727272727272727,
-"mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
-"mmlu_eval_accuracy_electrical_engineering": 0.25,
-"mmlu_eval_accuracy_professional_accounting": 0.3548387096774194,
-"mmlu_eval_accuracy_college_biology": 0.375,
-"mmlu_eval_accuracy_professional_medicine": 0.3870967741935484,
-"mmlu_eval_accuracy_moral_scenarios": 0.31,
-"mmlu_eval_accuracy_business_ethics": 0.5454545454545454,
-"mmlu_eval_accuracy_astronomy": 0.375,
-"mmlu_eval_accuracy_high_school_world_history": 0.5769230769230769,
-"mmlu_eval_accuracy_high_school_statistics": 0.391304347826087,
-"mmlu_eval_accuracy_us_foreign_policy": 0.7272727272727273,
-"mmlu_eval_accuracy_professional_psychology": 0.463768115942029,
-"mmlu_eval_accuracy_high_school_physics": 0.35294117647058826,
-"mmlu_eval_accuracy_college_medicine": 0.3181818181818182,
-"mmlu_eval_accuracy_virology": 0.3888888888888889,
-"mmlu_eval_accuracy_clinical_knowledge": 0.4482758620689655,
-"mmlu_eval_accuracy_college_chemistry": 0.375,
-"mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
-"mmlu_eval_accuracy_high_school_psychology": 0.7166666666666667,
-"mmlu_eval_accuracy": 0.47949665158112187,
-"epoch": 2.71}
 ```
 ## License and intended use

 0. using the updated [Meta's LLaMA-2 models](https://huggingface.co/meta-llama/Llama-2-7b-chat-hf).
 1. support [4-bit qlora](https://arxiv.org/abs/2305.14314), extreme GPU memory and inference time saving;
+2. better MMLU evaluation dataset results, llama2-7b's 45.3% to our 46.69% (+1.39%) in MMLU-test and 46.04% (+0.74%) in MMLU-eval. ['0ede8dd71e923db6258295621d817ca8714516d4']
 ### Introduction
 Determine the rank of LoRA layers by the singular values of pretrained weight matrices.
 ## MMLU result:
+### MMLU eval result:
+```json
+{"mmlu_loss": 1.6819591112653856,
+ "mmlu_eval_accuracy_econometrics": 0.16666666666666666,
+ "mmlu_eval_accuracy_marketing": 0.68,
+ "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
+ "mmlu_eval_accuracy_high_school_macroeconomics": 0.46511627906976744,
+ "mmlu_eval_accuracy_high_school_government_and_politics": 0.5238095238095238,
+ "mmlu_eval_accuracy_college_physics": 0.45454545454545453,
+ "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
+ "mmlu_eval_accuracy_international_law": 0.9230769230769231,
+ "mmlu_eval_accuracy_management": 0.6363636363636364,
+ "mmlu_eval_accuracy_philosophy": 0.35294117647058826,
+ "mmlu_eval_accuracy_high_school_geography": 0.6363636363636364,
+ "mmlu_eval_accuracy_professional_accounting": 0.2903225806451613,
+ "mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
+ "mmlu_eval_accuracy_miscellaneous": 0.627906976744186,
+ "mmlu_eval_accuracy_human_aging": 0.6956521739130435,
+ "mmlu_eval_accuracy_prehistory": 0.4857142857142857,
+ "mmlu_eval_accuracy_electrical_engineering": 0.3125,
+ "mmlu_eval_accuracy_high_school_biology": 0.375,
+ "mmlu_eval_accuracy_high_school_statistics": 0.34782608695652173,
+ "mmlu_eval_accuracy_moral_scenarios": 0.28,
+ "mmlu_eval_accuracy_sociology": 0.6363636363636364,
+ "mmlu_eval_accuracy_world_religions": 0.6842105263157895,
+ "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
+ "mmlu_eval_accuracy_college_mathematics": 0.36363636363636365,
+ "mmlu_eval_accuracy_conceptual_physics": 0.3076923076923077,
+ "mmlu_eval_accuracy_moral_disputes": 0.47368421052631576,
+ "mmlu_eval_accuracy_college_medicine": 0.36363636363636365,
+ "mmlu_eval_accuracy_professional_psychology": 0.391304347826087,
+ "mmlu_eval_accuracy_elementary_mathematics": 0.24390243902439024,
+ "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
+ "mmlu_eval_accuracy_high_school_physics": 0.35294117647058826,
+ "mmlu_eval_accuracy_college_chemistry": 0.375,
+ "mmlu_eval_accuracy_college_biology": 0.375,
+ "mmlu_eval_accuracy_anatomy": 0.5714285714285714,
+ "mmlu_eval_accuracy_machine_learning": 0.18181818181818182,
+ "mmlu_eval_accuracy_nutrition": 0.6363636363636364,
+ "mmlu_eval_accuracy_virology": 0.3333333333333333,
+ "mmlu_eval_accuracy_high_school_chemistry": 0.4090909090909091,
+ "mmlu_eval_accuracy_high_school_european_history": 0.4444444444444444,
+ "mmlu_eval_accuracy_clinical_knowledge": 0.4482758620689655,
+ "mmlu_eval_accuracy_high_school_psychology": 0.7333333333333333,
+ "mmlu_eval_accuracy_college_computer_science": 0.36363636363636365,
+ "mmlu_eval_accuracy_business_ethics": 0.45454545454545453,
+ "mmlu_eval_accuracy_professional_medicine": 0.3548387096774194,
+ "mmlu_eval_accuracy_professional_law": 0.27647058823529413,
+ "mmlu_eval_accuracy_us_foreign_policy": 0.6363636363636364,
+ "mmlu_eval_accuracy_high_school_us_history": 0.8181818181818182,
+ "mmlu_eval_accuracy_human_sexuality": 0.4166666666666667,
+ "mmlu_eval_accuracy_high_school_microeconomics": 0.38461538461538464,
+ "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+ "mmlu_eval_accuracy_security_studies": 0.5185185185185185,
+ "mmlu_eval_accuracy_astronomy": 0.4375,
+ "mmlu_eval_accuracy_public_relations": 0.5,
+ "mmlu_eval_accuracy_high_school_mathematics": 0.1724137931034483,
+ "mmlu_eval_accuracy_computer_security": 0.18181818181818182,
+ "mmlu_eval_accuracy_global_facts": 0.5,
+ "mmlu_eval_accuracy_high_school_world_history": 0.5769230769230769,
+ "mmlu_eval_accuracy": 0.46043208436613065}
+```
+### MMLU test result:
 ```json
+{"mmlu_loss": 1.6388045419503643,
+ "mmlu_test_accuracy_high_school_chemistry": 0.4039408866995074,
+ "mmlu_test_accuracy_abstract_algebra": 0.28,
+ "mmlu_test_accuracy_high_school_government_and_politics": 0.689119170984456,
+ "mmlu_test_accuracy_human_sexuality": 0.5419847328244275,
+ "mmlu_test_accuracy_nutrition": 0.5130718954248366,
+ "mmlu_test_accuracy_world_religions": 0.6666666666666666,
+ "mmlu_test_accuracy_high_school_physics": 0.33112582781456956,
+ "mmlu_test_accuracy_professional_accounting": 0.32978723404255317,
+ "mmlu_test_accuracy_business_ethics": 0.44,
+ "mmlu_test_accuracy_econometrics": 0.32456140350877194,
+ "mmlu_test_accuracy_machine_learning": 0.35714285714285715,
+ "mmlu_test_accuracy_moral_scenarios": 0.22569832402234638,
+ "mmlu_test_accuracy_jurisprudence": 0.5925925925925926,
+ "mmlu_test_accuracy_professional_law": 0.3239895697522816,
+ "mmlu_test_accuracy_medical_genetics": 0.48,
+ "mmlu_test_accuracy_college_chemistry": 0.36,
+ "mmlu_test_accuracy_high_school_geography": 0.5606060606060606,
+ "mmlu_test_accuracy_prehistory": 0.5185185185185185,
+ "mmlu_test_accuracy_high_school_world_history": 0.5864978902953587,
+ "mmlu_test_accuracy_professional_psychology": 0.4297385620915033,
+ "mmlu_test_accuracy_public_relations": 0.5272727272727272,
+ "mmlu_test_accuracy_high_school_psychology": 0.6256880733944954,
+ "mmlu_test_accuracy_high_school_biology": 0.5225806451612903,
+ "mmlu_test_accuracy_computer_security": 0.52,
+ "mmlu_test_accuracy_conceptual_physics": 0.3829787234042553,
+ "mmlu_test_accuracy_elementary_mathematics": 0.30423280423280424,
+ "mmlu_test_accuracy_high_school_computer_science": 0.42,
+ "mmlu_test_accuracy_marketing": 0.6495726495726496,
+ "mmlu_test_accuracy_college_mathematics": 0.33,
+ "mmlu_test_accuracy_college_biology": 0.5138888888888888,
+ "mmlu_test_accuracy_us_foreign_policy": 0.73,
+ "mmlu_test_accuracy_security_studies": 0.4775510204081633,
+ "mmlu_test_accuracy_high_school_european_history": 0.5393939393939394,
+ "mmlu_test_accuracy_international_law": 0.6363636363636364,
+ "mmlu_test_accuracy_moral_disputes": 0.5028901734104047,
+ "mmlu_test_accuracy_sociology": 0.5920398009950248,
+ "mmlu_test_accuracy_astronomy": 0.4868421052631579,
+ "mmlu_test_accuracy_professional_medicine": 0.40808823529411764,
+ "mmlu_test_accuracy_formal_logic": 0.23809523809523808,
+ "mmlu_test_accuracy_high_school_microeconomics": 0.46218487394957986,
+ "mmlu_test_accuracy_high_school_macroeconomics": 0.4307692307692308,
+ "mmlu_test_accuracy_management": 0.6601941747572816,
+ "mmlu_test_accuracy_logical_fallacies": 0.5276073619631901,
+ "mmlu_test_accuracy_high_school_mathematics": 0.25555555555555554,
+ "mmlu_test_accuracy_college_physics": 0.2647058823529412,
+ "mmlu_test_accuracy_philosophy": 0.5434083601286174,
+ "mmlu_test_accuracy_global_facts": 0.36,
+ "mmlu_test_accuracy_human_aging": 0.5695067264573991,
+ "mmlu_test_accuracy_virology": 0.4457831325301205,
+ "mmlu_test_accuracy_high_school_us_history": 0.6323529411764706,
+ "mmlu_test_accuracy_miscellaneous": 0.6615581098339719,
+ "mmlu_test_accuracy_college_computer_science": 0.37,
+ "mmlu_test_accuracy_high_school_statistics": 0.30092592592592593,
+ "mmlu_test_accuracy_electrical_engineering": 0.4689655172413793,
+ "mmlu_test_accuracy_college_medicine": 0.37572254335260113,
+ "mmlu_test_accuracy_clinical_knowledge": 0.49433962264150944,
+ "mmlu_test_accuracy_anatomy": 0.42962962962962964,
+ "mmlu_test_accuracy": 0.4669426393404124}
 ```
 ## License and intended use