lunahr
/

SystemGemma2-2b-it

@@ -86,7 +86,7 @@ model = AutoModelForCausalLM.from_pretrained(
 input_text = "Write me a poem about Machine Learning."
 input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
-outputs = model.generate(**input_ids)
 print(tokenizer.decode(outputs[0]))
 ```
@@ -117,12 +117,13 @@ from transformers import AutoTokenizer, AutoModelForCausalLM
 tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b-it")
 model = AutoModelForCausalLM.from_pretrained(
     "google/gemma-2-2b-it",
-    device_map="auto")
 input_text = "Write me a poem about Machine Learning."
 input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
-outputs = model.generate(**input_ids)
 print(tokenizer.decode(outputs[0]))
 ```
@@ -139,12 +140,13 @@ quantization_config = BitsAndBytesConfig(load_in_8bit=True)
 tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b-it")
 model = AutoModelForCausalLM.from_pretrained(
     "google/gemma-2-2b-it",
-    quantization_config=quantization_config)
 input_text = "Write me a poem about Machine Learning."
 input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
-outputs = model.generate(**input_ids)
 print(tokenizer.decode(outputs[0]))
 ```
@@ -159,12 +161,13 @@ quantization_config = BitsAndBytesConfig(load_in_4bit=True)
 tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b-it")
 model = AutoModelForCausalLM.from_pretrained(
     "google/gemma-2-2b-it",
-    quantization_config=quantization_config)
 input_text = "Write me a poem about Machine Learning."
 input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
-outputs = model.generate(**input_ids)
 print(tokenizer.decode(outputs[0]))
 ```

 input_text = "Write me a poem about Machine Learning."
 input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
+outputs = model.generate(**input_ids, max_new_tokens=32)
 print(tokenizer.decode(outputs[0]))
 ```
 tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b-it")
 model = AutoModelForCausalLM.from_pretrained(
     "google/gemma-2-2b-it",
+    device_map="auto",
+)
 input_text = "Write me a poem about Machine Learning."
 input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
+outputs = model.generate(**input_ids, max_new_tokens=32)
 print(tokenizer.decode(outputs[0]))
 ```
 tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b-it")
 model = AutoModelForCausalLM.from_pretrained(
     "google/gemma-2-2b-it",
+    quantization_config=quantization_config,
+)
 input_text = "Write me a poem about Machine Learning."
 input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
+outputs = model.generate(**input_ids, max_new_tokens=32)
 print(tokenizer.decode(outputs[0]))
 ```
 tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b-it")
 model = AutoModelForCausalLM.from_pretrained(
     "google/gemma-2-2b-it",
+    quantization_config=quantization_config,
+)
 input_text = "Write me a poem about Machine Learning."
 input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
+outputs = model.generate(**input_ids, max_new_tokens=32)
 print(tokenizer.decode(outputs[0]))
 ```