hkust-nlp
/

deita-7b-v1.0

AndrewZeng commited on Dec 29, 2023

Commit

de16c09

1 Parent(s): dd4513e

Update README.md (#3)

- Update README.md (8ad4fa76c099397803667e7427ef9b0e0b4eba88)

Co-authored-by: WeihaoZeng <AndrewZeng@users.noreply.huggingface.co>

Files changed (1) hide show

README.md CHANGED Viewed

@@ -10,6 +10,8 @@ language:
 # Model Card for Deita 7B V1.0
 Deita is an open-sourced project designed to facilitate **Automatic Data Selection** for instruction tuning in Large Language Models (LLMs).
 Deita 7B V1.0 is a fine-tuned + DPO version of Mistral-7B-v0.1 that was trained on **6K** automatically selected lightweight, high-quality alignment SFT data: [Deita 6K V0](https://huggingface.co/datasets/hkust-nlp/deita-6k-v0) and **10K** randomly sampled alignment preference data from Ultrafeedback.
@@ -27,8 +29,7 @@ Deita 7B V1.0 is a fine-tuned + DPO version of Mistral-7B-v0.1 that was trained
 ## Performance
-<details>
-  <summary>See full evaluations</summary>
 | Model                                          | Align     | Data Size  | MT-Bench | AlpacaEval(%) | OpenLLM (Avg.) |
 |------------------------------------------------|-----------|------------|----------|---------------|----------------|
@@ -63,7 +64,6 @@ Deita 7B V1.0 is a fine-tuned + DPO version of Mistral-7B-v0.1 that was trained
 | DEITA-7B-v1.0             | SFT + DPO | 6K SFT + 10K DPO   | 7.55     | 90.06         | 69.86          |
-</details>
 ## Input Format

 # Model Card for Deita 7B V1.0
+[GitHub](https://github.com/hkust-nlp/deita) | [Paper](https://arxiv.org/abs/2312.15685)
 Deita is an open-sourced project designed to facilitate **Automatic Data Selection** for instruction tuning in Large Language Models (LLMs).
 Deita 7B V1.0 is a fine-tuned + DPO version of Mistral-7B-v0.1 that was trained on **6K** automatically selected lightweight, high-quality alignment SFT data: [Deita 6K V0](https://huggingface.co/datasets/hkust-nlp/deita-6k-v0) and **10K** randomly sampled alignment preference data from Ultrafeedback.
 ## Performance
 | Model                                          | Align     | Data Size  | MT-Bench | AlpacaEval(%) | OpenLLM (Avg.) |
 |------------------------------------------------|-----------|------------|----------|---------------|----------------|
 | DEITA-7B-v1.0             | SFT + DPO | 6K SFT + 10K DPO   | 7.55     | 90.06         | 69.86          |
 ## Input Format