Spaces:

noamrot
/

FuseCap-image-captioning

Running

@@ -8,8 +8,8 @@
 import warnings
 warnings.filterwarnings("ignore")
-from models.vit import VisionTransformer, interpolate_pos_embed
-from models.med import BertConfig, BertModel, BertLMHeadModel
 from transformers import BertTokenizer
 import torch
@@ -22,7 +22,7 @@ from timm.models.hub import download_cached_file
 class BLIP_Base(nn.Module):
     def __init__(self,
-                 med_config = 'configs/med_config.json',
                  image_size = 224,
                  vit = 'base',
                  vit_grad_ckpt = False,
@@ -77,7 +77,7 @@ class BLIP_Base(nn.Module):
 class BLIP_Decoder(nn.Module):
     def __init__(self,
-                 med_config = 'configs/med_config.json',
                  image_size = 384,
                  vit = 'base',
                  vit_grad_ckpt = False,

 import warnings
 warnings.filterwarnings("ignore")
+from BLIP.models.vit import VisionTransformer, interpolate_pos_embed
+from BLIP.models.med import BertConfig, BertModel, BertLMHeadModel
 from transformers import BertTokenizer
 import torch
 class BLIP_Base(nn.Module):
     def __init__(self,
+                 med_config = 'BLIP/configs/med_config.json',
                  image_size = 224,
                  vit = 'base',
                  vit_grad_ckpt = False,
 class BLIP_Decoder(nn.Module):
     def __init__(self,
+                 med_config = 'BLIP/configs/med_config.json',
                  image_size = 384,
                  vit = 'base',
                  vit_grad_ckpt = False,

app.py CHANGED Viewed

@@ -6,23 +6,19 @@
 # iface = gr.Interface(fn=greet, inputs="image", outputs="text")
 # iface.launch()
 import sys
-from IPython.display import display, HTML
 from BLIP.models.blip import blip_decoder
-from google_drive_downloader import GoogleDriveDownloader as gdd
 from PIL import Image
 import requests
 import torch
 from torchvision import transforms
 from torchvision.transforms.functional import InterpolationMode
 from urllib.parse import urlparse
-from google_drive_downloader import GoogleDriveDownloader as gdd
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 transform = transforms.Compose([
         transforms.Resize((image_size,image_size),interpolation=InterpolationMode.BICUBIC),
         transforms.ToTensor(),

 # iface = gr.Interface(fn=greet, inputs="image", outputs="text")
 # iface.launch()
+import gradio as gr
 import sys
 from BLIP.models.blip import blip_decoder
 from PIL import Image
 import requests
 import torch
 from torchvision import transforms
 from torchvision.transforms.functional import InterpolationMode
 from urllib.parse import urlparse
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+image_size = 384
 transform = transforms.Compose([
         transforms.Resize((image_size,image_size),interpolation=InterpolationMode.BICUBIC),
         transforms.ToTensor(),

flagged/log.csv ADDED Viewed


1	+ raw_image,Caption,flag,username,timestamp
2	+ /Users/snoamr/Documents/superCap/internet_page/demo/FuseCap/flagged/raw_image/tmpw95d_cla.jpg,a white dog celebrates its birthday with a colorful array of balloons and a cake on a white table the dog wears a pink hat and has an open mouth as it enjoys the festivities,,,2023-05-25 12:59:13.544370

flagged/raw_image/tmpw95d_cla.jpg ADDED Viewed

requirements.py CHANGED Viewed

@@ -3,5 +3,4 @@ transformers==4.15.0
 fairscale==0.4.4
 torch
 torchvision
-Pillow
-google_drive_downloader

 fairscale==0.4.4
 torch
 torchvision
+Pillow