File size: 1,519 Bytes
60c62e4
13e7e18
 
 
 
 
 
 
 
60c62e4
 
2eb00c6
13e7e18
60c62e4
13e7e18
60c62e4
13e7e18
60c62e4
2eb00c6
 
 
 
 
 
 
 
 
 
 
 
 
60c62e4
13e7e18
 
 
 
 
60c62e4
13e7e18
 
 
 
60c62e4
13e7e18
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
---
datasets:
- IlyaGusev/ru_turbo_saiga
- IlyaGusev/ru_sharegpt_cleaned
- IlyaGusev/oasst1_ru_main_branch
- IlyaGusev/gpt_roleplay_realm
- lksy/ru_instruct_gpt4
language:
- ru
---


# Saiga/Gemma 9B, Russian Gemma-based chatbot

Based on [Gemma 7B](https://huggingface.co/google/gemma-7b).

Training Colab: [link](https://colab.research.google.com/drive/1O7F7Q3IQYh-v7EfsdRwMDMfUnOYZ3DEh).

ChatML prompt format:
```
<|im_start|>system
Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.
<|im_end|>
<|im_start|>user
Привет!<|im_end|>
<|im_start|>assistant
Отлично, а ты?<|im_end|>
<|im_start|>user
Шикарно. Как пройти в библиотеку?<|im_end|>
<|im_start|>assistant
```

Examples:
```
User: Почему трава зеленая? 
Saiga: 
```

```
User: Сочини длинный рассказ, обязательно упоминая следующие объекты. Дано: Таня, мяч
Saiga:
```

v1:
- dataset code revision d0d123dd221e10bb2a3383bcb1c6e4efe1b4a28a
- wandb [link](https://wandb.ai/ilyagusev/gemma_test/runs/k7u3uw5i)
- 5 datasets: ru_turbo_saiga, ru_sharegpt_cleaned, oasst1_ru_main_branch, gpt_roleplay_realm, ru_instruct_gpt4
- Datasets merging script: [create_short_chat_set.py](https://github.com/IlyaGusev/rulm/blob/d0d123dd221e10bb2a3383bcb1c6e4efe1b4a28a/self_instruct/src/data_processing/create_short_chat_set.py)