Spaces:

Yeyito
/

llm_contamination_detector

Runtime error

Yeyito commited on Dec 20, 2023

Commit

5213c6c

•

1 Parent(s): 39963b1

reverted tokenizer fix, will be solved manually upon testing, current evals

Files changed (3) hide show

data/code_eval_board.csv CHANGED Viewed

@@ -8,3 +8,6 @@ T,Models,ARC,HellaSwag,MMLU,TruthfulQA,Winogrande,GSM8K,Reference Model
 🔶,upstage/SOLAR-10.7B-Instruct-v1.0,0.11,0.49,0.28,0.36,0.01,0.96,huggyllama/llama-7b
 🔶,AIDC-ai-business/Marcoroni-7B-v3,0.1,0.14,0.2,0.41,0.0,0.95,mistralai/Mistral-7B-v0.1
 🔶,amazon/MistralLite,0.09,0.14,0.2,0.43,0.0,0.73,mistralai/Mistral-7B-v0.1

 🔶,upstage/SOLAR-10.7B-Instruct-v1.0,0.11,0.49,0.28,0.36,0.01,0.96,huggyllama/llama-7b
 🔶,AIDC-ai-business/Marcoroni-7B-v3,0.1,0.14,0.2,0.41,0.0,0.95,mistralai/Mistral-7B-v0.1
 🔶,amazon/MistralLite,0.09,0.14,0.2,0.43,0.0,0.73,mistralai/Mistral-7B-v0.1
+🔶,openchat/openchat_3.5,0.13,0.13,0.23,0.45,0.0,0.97
+🔶,meta-math/MetaMath-Mistral-7B,0.08,0.1,0.17,0.42,0.0,0.97
+🔶,teknium/OpenHermes-2.5-Mistral-7B,0.07,0.13,0.23,0.39,0.0,0.96

data/queue.csv CHANGED Viewed

@@ -1,6 +1,4 @@
 Type,Model,ref_model
-🔶 finetuned,openchat/openchat_3.5,mistralai/Mistral-7B-v0.1
-🔶 finetuned,teknium/OpenHermes-2.5-Mistral-7B,mistralai/Mistral-7B-v0.1
 🔶 finetuned,WizardLM/WizardMath-7B-V1.1,mistralai/Mistral-7B-v0.1
 🔶 finetuned,Intel/neural-chat-7b-v3-3,mistralai/Mistral-7B-v0.1
 🔶 finetuned,mistralai/Mistral-7B-Instruct-v0.2,mistralai/Mistral-7B-v0.1
@@ -8,7 +6,6 @@ Type,Model,ref_model
 🔶 finetuned,HuggingFaceH4/zephyr-7b-beta,mistralai/Mistral-7B-v0.1
 🔶 finetuned,berkeley-nest/Starling-LM-7B-alpha,mistralai/Mistral-7B-v0.1
 🔶 finetuned,Open-Orca/Mistral-7B-OpenOrca,mistralai/Mistral-7B-v0.1
-🔶 finetuned,meta-math/MetaMath-Mistral-7B,mistralai/Mistral-7B-v0.1
 🔶 finetuned,microsoft/Orca-2-7b,mistralai/Mistral-7B-v0.1
 🔶 finetuned,01-ai/Yi-6B-200K,mistralai/Mistral-7B-v0.1
 🔶 finetuned,Yhyu13/LMCocktail-10.7B-v1,mistralai/Mistral-7B-v0.1

 Type,Model,ref_model
 🔶 finetuned,WizardLM/WizardMath-7B-V1.1,mistralai/Mistral-7B-v0.1
 🔶 finetuned,Intel/neural-chat-7b-v3-3,mistralai/Mistral-7B-v0.1
 🔶 finetuned,mistralai/Mistral-7B-Instruct-v0.2,mistralai/Mistral-7B-v0.1
 🔶 finetuned,HuggingFaceH4/zephyr-7b-beta,mistralai/Mistral-7B-v0.1
 🔶 finetuned,berkeley-nest/Starling-LM-7B-alpha,mistralai/Mistral-7B-v0.1
 🔶 finetuned,Open-Orca/Mistral-7B-OpenOrca,mistralai/Mistral-7B-v0.1
 🔶 finetuned,microsoft/Orca-2-7b,mistralai/Mistral-7B-v0.1
 🔶 finetuned,01-ai/Yi-6B-200K,mistralai/Mistral-7B-v0.1
 🔶 finetuned,Yhyu13/LMCocktail-10.7B-v1,mistralai/Mistral-7B-v0.1

detect-pretrain-code-contamination/src/run.py CHANGED Viewed

@@ -44,7 +44,7 @@ def load_model(name1,ref_model):
     if name1 not in models:
         model1 = AutoModelForCausalLM.from_pretrained(name1, return_dict=True, device_map='auto')
         model1.eval()
-        tokenizer1 = AutoTokenizer.from_pretrained(ref_model)
         tokenizer1.pad_token = tokenizer1.eos_token
         models[name1] = model1
         models[name1 + "_tokenizer"] = tokenizer1

     if name1 not in models:
         model1 = AutoModelForCausalLM.from_pretrained(name1, return_dict=True, device_map='auto')
         model1.eval()
+        tokenizer1 = AutoTokenizer.from_pretrained(name1)
         tokenizer1.pad_token = tokenizer1.eos_token
         models[name1] = model1
         models[name1 + "_tokenizer"] = tokenizer1