sartifyllc
/

sartify_gemma2-2B-16bit

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Mollel commited on Aug 8, 2024

Commit

2be4850

·

verified ·

1 Parent(s): 5699d3e

Update README.md

Files changed (1) hide show

README.md +38 -32

README.md CHANGED Viewed

@@ -6,6 +6,30 @@ language:
 ---
 ```python
 alpaca_prompt = """Hapo chini kuna maelezo ya kazi, pamoja na maelezo ya ziada yanayotoa muktadha zaidi. Andika jibu ambalo linakamilisha ombi hilo ipasavyo.
 ### Maelezo:
@@ -16,40 +40,22 @@ alpaca_prompt = """Hapo chini kuna maelezo ya kazi, pamoja na maelezo ya ziada y
 ### Jibu:
 {}"""
-EOS_TOKEN = tokenizer.eos_token # Must add EOS_TOKEN
-def formatting_prompts_func(examples):
-    instructions = examples["instruction"]
-    inputs       = examples["input"]
-    outputs      = examples["output"]
-    texts = []
-    for instruction, input, output in zip(instructions, inputs, outputs):
-        # Must add EOS_TOKEN, otherwise your generation will go on forever!
-        text = alpaca_prompt.format(instruction, input, output) + EOS_TOKEN
-        texts.append(text)
-    return { "text" : texts, }
-pass
-from datasets import load_dataset
-```
-```python
-# pip install accelerate
-from transformers import AutoTokenizer, AutoModelForCausalLM
-import torch
-tokenizer = AutoTokenizer.from_pretrained("sartifyllc/sartify_gemma2-2B-16bit")
-model = AutoModelForCausalLM.from_pretrained(
-    "sartifyllc/sartify_gemma2-2B-16bit",
-    device_map="auto",
-    torch_dtype=torch.bfloat16
-)
-input_text = "Je moja jumlisha moja ni ngapi?"
-input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
-outputs = model.generate(**input_ids)
-print(tokenizer.decode(outputs[0]))
-```

 ---
 ```python
+%%capture
+# Installs Unsloth, Xformers (Flash Attention) and all other packages!
+!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
+!pip install --no-deps "xformers<0.0.27" "trl<0.9.0" peft accelerate bitsandbytes
+from unsloth import FastLanguageModel
+import torch
+max_seq_length = 2048 # Choose any! We auto support RoPE Scaling internally!
+dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
+load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.
+model_name = "sartifyllc/sartify_gemma2-2B-16bit"
+model, tokenizer = FastLanguageModel.from_pretrained(
+    model_name = model_name,
+    max_seq_length = max_seq_length,
+    dtype = dtype,
+    trust_remote_code=True,
+    # load_in_4bit = load_in_4bit,
+    # token = "hf_...", # use one if using gated models like meta-llama/Llama-2-7b-hf
+)
 alpaca_prompt = """Hapo chini kuna maelezo ya kazi, pamoja na maelezo ya ziada yanayotoa muktadha zaidi. Andika jibu ambalo linakamilisha ombi hilo ipasavyo.
 ### Maelezo:
 ### Jibu:
 {}"""
+FastLanguageModel.for_inference(model) # Enable native 2x faster inference
+# alpaca_prompt = Copied from above
+inputs = tokenizer(
+[
+    alpaca_prompt.format(
+        "Rudia tu kila kitu ninachosema kwa Kiingereza kwa Kiswahili wala usiseme chochote kingine.", # instruction
+        "Who is the president of Tanzania?", # input
+        "", # output - leave this blank for generation!
+    )
+], return_tensors = "pt").to("cuda")
+from transformers import TextStreamer
+text_streamer = TextStreamer(tokenizer)
+_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 128)
+```