Spaces:

cantuncok
/

meta-Llama-3.2-11B-Vision-Instruct

Running

cantuncok commited on Sep 26, 2024

Commit

6205fd1

•

1 Parent(s): 7af819a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,8 @@
 import gradio as gr
-from transformers import AutoProcessor, AutoModelForVisionText2Text
 import os
 import torch
 # Hugging Face tokeninizi çevresel değişkenden alın
 hf_token = os.getenv("HF_TOKEN")
@@ -10,21 +11,30 @@ if not hf_token:
 # Model ve işlemciyi yükleyin
 model_name = "meta-llama/Llama-3.2-90B-Vision-Instruct"
-processor = AutoProcessor.from_pretrained(model_name, use_auth_token=hf_token)
-model = AutoModelForVisionText2Text.from_pretrained(
     model_name,
     use_auth_token=hf_token,
     device_map="auto",
-    torch_dtype=torch.float16
 )
 def predict(image, text):
-    # Girdileri işleyin ve cihazı ayarlayın
-    inputs = processor(images=image, text=text, return_tensors="pt").to(model.device)
     # Modelden yanıt alın
     outputs = model.generate(**inputs, max_new_tokens=100)
     # Çıktıyı çözümleyin
-    response = processor.batch_decode(outputs, skip_special_tokens=True)[0]
     return response
 # Gradio arayüzünü tanımlayın

 import gradio as gr
 import os
 import torch
+from transformers import AutoProcessor, MllamaForConditionalGeneration
+from PIL import Image
 # Hugging Face tokeninizi çevresel değişkenden alın
 hf_token = os.getenv("HF_TOKEN")
 # Model ve işlemciyi yükleyin
 model_name = "meta-llama/Llama-3.2-90B-Vision-Instruct"
+model = MllamaForConditionalGeneration.from_pretrained(
     model_name,
     use_auth_token=hf_token,
+    torch_dtype=torch.bfloat16,
     device_map="auto",
 )
+processor = AutoProcessor.from_pretrained(model_name, use_auth_token=hf_token)
 def predict(image, text):
+    # Mesajları hazırlayın
+    messages = [
+        {"role": "user", "content": [
+            {"type": "image"},
+            {"type": "text", "text": text}
+        ]}
+    ]
+    # Girdi metnini oluşturun
+    input_text = processor.apply_chat_template(messages, add_generation_prompt=True)
+    # Girdileri işleyin ve cihaza taşıyın
+    inputs = processor(image, input_text, return_tensors="pt").to(model.device)
     # Modelden yanıt alın
     outputs = model.generate(**inputs, max_new_tokens=100)
     # Çıktıyı çözümleyin
+    response = processor.decode(outputs[0], skip_special_tokens=True)
     return response
 # Gradio arayüzünü tanımlayın