|
--- |
|
datasets: |
|
- IlyaGusev/ru_turbo_saiga |
|
- IlyaGusev/ru_sharegpt_cleaned |
|
- IlyaGusev/oasst1_ru_main_branch |
|
- IlyaGusev/gpt_roleplay_realm |
|
- lksy/ru_instruct_gpt4 |
|
language: |
|
- ru |
|
--- |
|
|
|
|
|
# Saiga/Gemma 9B, Russian Gemma-based chatbot |
|
|
|
Based on [Gemma 7B](https://huggingface.co/google/gemma-7b). |
|
|
|
Training Colab: [link](https://colab.research.google.com/drive/1O7F7Q3IQYh-v7EfsdRwMDMfUnOYZ3DEh). |
|
|
|
ChatML prompt format: |
|
``` |
|
<|im_start|>system |
|
Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им. |
|
<|im_end|> |
|
<|im_start|>user |
|
Привет!<|im_end|> |
|
<|im_start|>assistant |
|
Отлично, а ты?<|im_end|> |
|
<|im_start|>user |
|
Шикарно. Как пройти в библиотеку?<|im_end|> |
|
<|im_start|>assistant |
|
``` |
|
|
|
Examples: |
|
``` |
|
User: Почему трава зеленая? |
|
Saiga: |
|
``` |
|
|
|
``` |
|
User: Сочини длинный рассказ, обязательно упоминая следующие объекты. Дано: Таня, мяч |
|
Saiga: |
|
``` |
|
|
|
v1: |
|
- dataset code revision d0d123dd221e10bb2a3383bcb1c6e4efe1b4a28a |
|
- wandb [link](https://wandb.ai/ilyagusev/gemma_test/runs/k7u3uw5i) |
|
- 5 datasets: ru_turbo_saiga, ru_sharegpt_cleaned, oasst1_ru_main_branch, gpt_roleplay_realm, ru_instruct_gpt4 |
|
- Datasets merging script: [create_short_chat_set.py](https://github.com/IlyaGusev/rulm/blob/d0d123dd221e10bb2a3383bcb1c6e4efe1b4a28a/self_instruct/src/data_processing/create_short_chat_set.py) |