Add instructions to readme
Browse files- README.md +40 -3
- media/lm_studio_screen_1.png +0 -0
- media/lm_studio_screen_2.1.png +0 -0
- media/lm_studio_screen_3.png +0 -0
README.md
CHANGED
@@ -10,7 +10,44 @@ model_name: YugoGPT
|
|
10 |
model_type: mistral
|
11 |
quantized_by: Luka Secerovic
|
12 |
---
|
13 |
-
#
|
14 |
-
|
15 |
|
16 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10 |
model_type: mistral
|
11 |
quantized_by: Luka Secerovic
|
12 |
---
|
13 |
+
# O modelu
|
14 |
+
[YugoGPT](https://huggingface.co/gordicaleksa/YugoGPT) je trenutno najbolji "open source" model za srpski, hvatska, bosanski... i sve ostale jezike na koje uspemo da se "podelimo" 🙂
|
15 |
|
16 |
+
Ovaj repozitorijum sadrži model model u [GGUF](https://github.com/ggerganov/llama.cpp/tree/master) formatu, koji je pogodan za korišćenje modela u lokalu i ne zahteva skupe grafičke kartice.
|
17 |
+
|
18 |
+
# Verzije modela
|
19 |
+
Da bi model radio brže, kompresovan je u nekoliko manjih verzija. Kompresijom se neznatno gubi na kvalitetu, ali se znatno dobija na brzini.
|
20 |
+
|
21 |
+
Preporučeno je koristiti `Q4_1` verziju jer je najbrža.
|
22 |
+
|
23 |
+
|
24 |
+
| Naziv | Veličina (GB) | Napomena |
|
25 |
+
|-------|---------------|----------------------------------------------------------------------------|
|
26 |
+
| Q4_1 | 4.55 | Težine su kompresovane na 4 bita. Najbriža verzija. |
|
27 |
+
| q8_0 | 7.7 | Težine su kompresovane na 8 bita. |
|
28 |
+
| fp16 | 14.5 | Težine se čuvaju kao 16 bita. |
|
29 |
+
| fp32 | 29 | Originalne, 32 bitne težine. Nepotrebno za korišćenje na lokalnom računaru |
|
30 |
+
|
31 |
+
# Kako iskoristiti ovaj model na svom računaru?
|
32 |
+
## LMStudio - najlakši način ⚡️
|
33 |
+
Najlakši način je da se prvo instalira [LMStudio](https://lmstudio.ai/), program koji omogućuva veoma lako korišćenje LLM-ova.
|
34 |
+
|
35 |
+
- Nakon instalacije, u polju za pretragu ukucaj "alkibijad/YugoGPT":
|
36 |
+
![Pretraga](./media/lm_studio_screen_1.png "Pretraga modela")
|
37 |
+
- Izaberi neki od modela (preporučeno `Q4_1`):
|
38 |
+
![Izaberi model](./media/lm_studio_screen_2.1.png "Izaberi model")
|
39 |
+
- Nakon što se model "skine", klikni na "chat" u levom delu ekrana i možeš da ćaskaš sa modelom:
|
40 |
+
![Chat](./media/lm_studio_screen_3.png "Chat")
|
41 |
+
- [Opciono] Možeš da podesiš "system prompt", npr. "Ti si AI asistent koji uvek želi da pomogne." ili kako god već hoćeš.
|
42 |
+
|
43 |
+
To je to!
|
44 |
+
|
45 |
+
## llama.cpp - napredno 🤓
|
46 |
+
Ako si napredan korisnik i želiš da se petljaš sa komandnom linijom i naučiš više o `GGUF` formatu, idi na [llama.cpp](https://github.com/ggerganov/llama.cpp/tree/master) i pročitaj uputstva 🙂
|
47 |
+
|
48 |
+
|
49 |
+
# Naredni koraci 🐾
|
50 |
+
Ovaj repozitorijum je plod mini projekta za upoznavanje sa `GGUF` formatom.
|
51 |
+
Ovo bi mogli biti naredni koraci, ali teško da će do njih doći:
|
52 |
+
- [] Konvertovanje u još neke od varijanti (npr. 5 bitova, 2 bita itd.) Ovo teško da ću raditi pošto je zapravo to već uradjeno [ovde](https://huggingface.co/datatab/YugoGPT-Quantized-GGUF) 🙌
|
53 |
+
- [] Kačenje koda za konverziju. U suštini dovoljno je pratiti [ova uputstva](https://github.com/ggerganov/llama.cpp?tab=readme-ov-file#prepare-and-quantize).
|
media/lm_studio_screen_1.png
ADDED
media/lm_studio_screen_2.1.png
ADDED
media/lm_studio_screen_3.png
ADDED