BleachNick
/

MMICL-Instructblip-T5-xxl

Image-Text-to-Text

Inference Endpoints

Model card Files Files and versions Community

BleachNick commited on Aug 30, 2023

Commit

8862295

•

1 Parent(s): 078d257

Update README.md

Files changed (1) hide show

README.md +6 -12

README.md CHANGED Viewed

@@ -8,7 +8,7 @@ library_name: transformers
 # Model Card for MMICL
 ## Temporal Demo for MMICL
-[Playground for MMICL-FLANT5XXL](https://ddb87ac77b2611b779.gradio.live/)
 support multi-image input as well as video input.
 <!-- Provide a quick summary of what the model is/does. -->
@@ -53,16 +53,12 @@ import json
 import transformers
 from PIL import Image
 import torch
-from model.blip2 import Blip2Processor,Blip2ForConditionalGeneration
-from model.blip2 import Blip2Config
 model_type="instructblip"
 model_ckpt="BleachNick/MMICL-Instructblip-T5-xxl"
-if 'blip2' in model_type:
-    model = Blip2ForConditionalGeneration.from_pretrained(
-            model_ckpt,
-            config=config).to('cuda:0',dtype=torch.bfloat16)
-elif 'instructblip' in model_type:
     model = InstructBlipForConditionalGeneration.from_pretrained(
         model_ckpt,
         config=config).to('cuda:0',dtype=torch.bfloat16)
@@ -73,16 +69,14 @@ sp = ["图"]+[f"<image{i}>" for i in range(20)]
 processor = InstructBlipProcessor.from_pretrained(
     model_ckpt
 )
-# processor = Blip2Processor.from_pretrained(
-#     model_ckpt
-# )
 sp = sp+processor.tokenizer.additional_special_tokens[len(sp):]
 processor.tokenizer.add_special_tokens({'additional_special_tokens':sp})
 prompt = ['Use the image 0: <image0>图,image 1: <image1>图 and image 2: <image2>图 as a visual aid to help you calculate the equation accurately. image 0 is 2+1=3.\nimage 1 is 5+6=11.\nimage 2 is"']
 prompt = " ".join(prompt)
 inputs = processor(images=images, text=prompt, return_tensors="pt")

 # Model Card for MMICL
 ## Temporal Demo for MMICL
+[Playground for MMICL-FLANT5XXL](https://bcd7bc41d42486e7c8.gradio.live/)
 support multi-image input as well as video input.
 <!-- Provide a quick summary of what the model is/does. -->
 import transformers
 from PIL import Image
 import torch
 model_type="instructblip"
 model_ckpt="BleachNick/MMICL-Instructblip-T5-xxl"
+config_ckpt = "Salesforce/instructblip-flan-t5-xxl"
+config = InstructBlipConfig.from_pretrained(config_ckpt )
+if 'instructblip' in model_type:
     model = InstructBlipForConditionalGeneration.from_pretrained(
         model_ckpt,
         config=config).to('cuda:0',dtype=torch.bfloat16)
 processor = InstructBlipProcessor.from_pretrained(
     model_ckpt
 )
 sp = sp+processor.tokenizer.additional_special_tokens[len(sp):]
 processor.tokenizer.add_special_tokens({'additional_special_tokens':sp})
 prompt = ['Use the image 0: <image0>图,image 1: <image1>图 and image 2: <image2>图 as a visual aid to help you calculate the equation accurately. image 0 is 2+1=3.\nimage 1 is 5+6=11.\nimage 2 is"']
+# images try to load the images to be a list of PIL.Image object.
 prompt = " ".join(prompt)
 inputs = processor(images=images, text=prompt, return_tensors="pt")