Spaces:

nielsr
/

comparing-captioning-models

Running

App Files Files Community

nielsr HF staff commited on Jul 13, 2023

Commit

d522bbe

•

1 Parent(s): 5dd3d52

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -7

app.py CHANGED Viewed

@@ -17,8 +17,8 @@ git_model_large_coco = AutoModelForCausalLM.from_pretrained("microsoft/git-large
 blip_processor_large = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
 blip_model_large = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large").to(device)
-blip2_processor = AutoProcessor.from_pretrained("Salesforce/blip2-opt-6.7b")
-blip2_model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-6.7b", device_map="auto", load_in_4bit=True, torch_dtype=torch.float16)
 instructblip_processor = AutoProcessor.from_pretrained("Salesforce/instructblip-vicuna-7b")
 instructblip_model = InstructBlipForConditionalGeneration.from_pretrained("Salesforce/instructblip-vicuna-7b", device_map="auto", load_in_4bit=True, torch_dtype=torch.float16)
@@ -39,9 +39,7 @@ def generate_caption(processor, model, image, tokenizer=None, use_float_16=False
     return generated_caption
-def generate_caption_blip2(processor, model, image, replace_token=False):
-    prompt = "Generate a caption for the image:"
     inputs = processor(images=image, text=prompt, return_tensors="pt").to(device=model.device, dtype=torch.float16)
     generated_ids = model.generate(**inputs,
@@ -59,9 +57,9 @@ def generate_captions(image):
     caption_blip_large = generate_caption(blip_processor_large, blip_model_large, image)
-    caption_blip2 = generate_caption_blip2(blip2_processor, blip2_model, image).strip()
-    caption_instructblip = generate_caption_blip2(instructblip_processor, instructblip_model, image, replace_token=True)
     return caption_git_large_coco, caption_blip_large, caption_blip2, caption_instructblip

 blip_processor_large = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
 blip_model_large = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large").to(device)
+blip2_processor = AutoProcessor.from_pretrained("Salesforce/blip2-opt-6.7b-coco")
+blip2_model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-6.7b-coco", device_map="auto", load_in_4bit=True, torch_dtype=torch.float16)
 instructblip_processor = AutoProcessor.from_pretrained("Salesforce/instructblip-vicuna-7b")
 instructblip_model = InstructBlipForConditionalGeneration.from_pretrained("Salesforce/instructblip-vicuna-7b", device_map="auto", load_in_4bit=True, torch_dtype=torch.float16)
     return generated_caption
+def generate_caption_blip2(processor, model, image, prompt, replace_token=False):
     inputs = processor(images=image, text=prompt, return_tensors="pt").to(device=model.device, dtype=torch.float16)
     generated_ids = model.generate(**inputs,
     caption_blip_large = generate_caption(blip_processor_large, blip_model_large, image)
+    caption_blip2 = generate_caption_blip2(blip2_processor, blip2_model, image, prompt="A photo of").strip()
+    caption_instructblip = generate_caption_blip2(instructblip_processor, instructblip_model, image, prompt="Generate a caption for the image:", replace_token=True)
     return caption_git_large_coco, caption_blip_large, caption_blip2, caption_instructblip