zhangzicheng
/

q-sit

llava_onevision

image-text-to-text

Inference Endpoints

Model card Files Files and versions Community

Improve model card

#2

by nielsr HF staff - opened 1 day ago

base: refs/heads/main

←

from: refs/pr/2

Discussion Files changed

Files changed (1) hide show

README.md +6 -5

README.md CHANGED Viewed

@@ -1,7 +1,8 @@
 ---
 license: mit
 library_name: transformers
-pipeline_tag: image-to-text
 ---
 <h2>[Installation Free!] Quicker Start with Hugging Face AutoModel</h2>
@@ -13,13 +14,13 @@ Do the image quality interpreting chat with q-sit.
 import requests
 from PIL import Image
 import torch
-from transformers import AutoProcessor, LlavaOnevisionForConditionalGeneration
 model_id = "zhangzicheng/q-sit-mini"
 # if you want to use primary version, switch to q-sit
 # model_id = "zhangzicheng/q-sit"
-model = LlavaOnevisionForConditionalGeneration.from_pretrained(
     model_id,
     torch_dtype=torch.float16,
     low_cpu_mem_usage=True,
@@ -53,7 +54,7 @@ Do the image quality scoring with q-sit.
 import torch
 import requests
 from PIL import Image
-from transformers import AutoProcessor, LlavaOnevisionForConditionalGeneration, AutoTokenizer
 import numpy as np
 def wa5(logits):
@@ -62,7 +63,7 @@ def wa5(logits):
     return np.inner(probs, np.array([1, 0.75, 0.5, 0.25, 0]))
 model_id = "zhangzicheng/q-sit-mini"
-model = LlavaOnevisionForConditionalGeneration.from_pretrained(
     model_id,
     torch_dtype=torch.float16,
     low_cpu_mem_usage=True,

 ---
 license: mit
 library_name: transformers
+pipeline_tag: image-text-to-text
+base_model: llava-hf/llava-onevision-qwen2-0.5b-ov-hf
 ---
 <h2>[Installation Free!] Quicker Start with Hugging Face AutoModel</h2>
 import requests
 from PIL import Image
 import torch
+from transformers import AutoProcessor, AutoModelForImageTextToText
 model_id = "zhangzicheng/q-sit-mini"
 # if you want to use primary version, switch to q-sit
 # model_id = "zhangzicheng/q-sit"
+model = AutoModelForImageTextToText.from_pretrained(
     model_id,
     torch_dtype=torch.float16,
     low_cpu_mem_usage=True,
 import torch
 import requests
 from PIL import Image
+from transformers import AutoProcessor, AutoModelForImageTextToText, AutoTokenizer
 import numpy as np
 def wa5(logits):
     return np.inner(probs, np.array([1, 0.75, 0.5, 0.25, 0]))
 model_id = "zhangzicheng/q-sit-mini"
+model = AutoModelForImageTextToText.from_pretrained(
     model_id,
     torch_dtype=torch.float16,
     low_cpu_mem_usage=True,