Spaces:

Vageesh1
/

clip_gpt2

Running

App Files Files Community

Vageesh1 commited on May 9, 2023

Commit

4e527a6

•

1 Parent(s): 2c14e54

Upload 4 files

Browse files

Files changed (4) hide show

neuralnet/dataset.py +139 -0
neuralnet/model.py +71 -0
neuralnet/train.py +130 -0
neuralnet/utils.py +42 -0

neuralnet/dataset.py CHANGED Viewed

	@@ -0,0 +1,139 @@

+import os  # when loading file paths
+import pandas as pd  # for lookup in annotation file
+import spacy  # for tokenizer
+import torch
+from torch.nn.utils.rnn import pad_sequence  # pad batch
+from torch.utils.data import DataLoader, Dataset
+from PIL import Image  # Load img
+import torchvision.transforms as transforms
+import json
+# Download with: python -m spacy download en
+spacy_eng = spacy.load("en_core_web_sm")
+class Vocabulary:
+    def __init__(self, freq_threshold):
+        self.itos = {0: "<PAD>", 1: "<SOS>", 2: "<EOS>", 3: "<UNK>"}
+        self.stoi = {"<PAD>": 0, "<SOS>": 1, "<EOS>": 2, "<UNK>": 3}
+        self.freq_threshold = freq_threshold
+    def __len__(self):
+        return len(self.stoi)
+    @staticmethod
+    def tokenizer_eng(text):
+        return [tok.text.lower() for tok in spacy_eng.tokenizer(text)]
+    def build_vocabulary(self, sentence_list):
+        frequencies = {}
+        idx = 4
+        for sentence in sentence_list:
+            for word in self.tokenizer_eng(sentence):
+                if word not in frequencies:
+                    frequencies[word] = 1
+                else:
+                    frequencies[word] += 1
+                if frequencies[word] == self.freq_threshold:
+                    self.stoi[word] = idx
+                    self.itos[idx] = word
+                    idx += 1
+    def numericalize(self, text):
+        tokenized_text = self.tokenizer_eng(text)
+        return [
+            self.stoi[token] if token in self.stoi else self.stoi["<UNK>"]
+            for token in tokenized_text
+        ]
+class FlickrDataset(Dataset):
+    def __init__(self, root_dir, captions_file, transform=None, freq_threshold=5):
+        self.root_dir = root_dir
+        self.df = pd.read_csv(captions_file)
+        self.transform = transform
+        # Get img, caption columns
+        self.imgs = self.df["image_name"]
+        self.captions = self.df["comment"]
+        # Initialize vocabulary and build vocab
+        self.vocab = Vocabulary(freq_threshold)
+        self.vocab.build_vocabulary(self.captions.tolist())
+    def __len__(self):
+        return len(self.df)
+    def __getitem__(self, index):
+        caption = self.captions[index]
+        img_id = self.imgs[index]
+        img = Image.open(os.path.join(self.root_dir, img_id)).convert("RGB")
+        if self.transform is not None:
+            img = self.transform(img)
+        numericalized_caption = [self.vocab.stoi["<SOS>"]]
+        numericalized_caption += self.vocab.numericalize(caption)
+        numericalized_caption.append(self.vocab.stoi["<EOS>"])
+        return img, torch.tensor(numericalized_caption)
+class MyCollate:
+    def __init__(self, pad_idx):
+        self.pad_idx = pad_idx
+    def __call__(self, batch):
+        imgs = [item[0].unsqueeze(0) for item in batch]
+        imgs = torch.cat(imgs, dim=0)
+        targets = [item[1] for item in batch]
+        targets = pad_sequence(targets, batch_first=False, padding_value=self.pad_idx)
+        return imgs, targets
+def get_loader(
+    root_folder,
+    annotation_file,
+    transform,
+    batch_size=64,
+    num_workers=2,
+    shuffle=True,
+    pin_memory=True,
+):
+    dataset = FlickrDataset(root_folder, annotation_file, transform=transform)
+    pad_idx = dataset.vocab.stoi["<PAD>"]
+    loader = DataLoader(
+        dataset=dataset,
+        batch_size=batch_size,
+        num_workers=num_workers,
+        shuffle=shuffle,
+        pin_memory=pin_memory,
+        collate_fn=MyCollate(pad_idx=pad_idx),
+    )
+    return loader, dataset
+if __name__ == "__main__":
+    transform = transforms.Compose(
+        [transforms.Resize((224, 224)), transforms.ToTensor(),]
+    )
+    loader, dataset = get_loader(
+        "/home/koushik/vscode/Projects/pytorch/img2text_v1/flickr30k/flickr30k_images/", "/home/koushik/vscode/Projects/pytorch/img2text_v1/flickr30k/results.csv", transform=transform
+    )
+    for idx, (imgs, captions) in enumerate(loader):
+        print(imgs.shape)
+        print(captions.shape)
+        print(len(dataset.vocab))
+        test = {"itos":dataset.vocab.itos, "stoi": dataset.vocab.stoi}
+        json.dump(test, open('test.json', 'w'))
+        break

neuralnet/model.py ADDED Viewed

	@@ -0,0 +1,71 @@

+import torch
+import torch.nn as nn
+import torchvision.models as models
+class InceptionEncoder(nn.Module):
+    def __init__(self, embed_size, train_CNN=False):
+        super(InceptionEncoder, self).__init__()
+        self.train_CNN = train_CNN
+        self.inception = models.inception_v3(pretrained=True, aux_logits=False)
+        self.inception.fc = nn.Linear(self.inception.fc.in_features, embed_size)
+        self.relu = nn.ReLU()
+        self.bn = nn.BatchNorm1d(embed_size, momentum = 0.01)
+        self.dropout = nn.Dropout(0.5)
+    def forward(self, images):
+        features = self.inception(images)
+        norm_features = self.bn(features)
+        return self.dropout(self.relu(norm_features))
+class LstmDecoder(nn.Module):
+    def __init__(self, embed_size, hidden_size, vocab_size, num_layers, device = 'cpu'):
+        super(LstmDecoder, self).__init__()
+        self.num_layers = num_layers
+        self.hidden_size = hidden_size
+        self.device = device
+        self.embed = nn.Embedding(vocab_size, embed_size)
+        self.lstm = nn.LSTM(embed_size, hidden_size, num_layers = self.num_layers)
+        self.linear = nn.Linear(hidden_size, vocab_size)
+        self.dropout = nn.Dropout(0.5)
+    def forward(self, encoder_out, captions):
+        h0 = torch.zeros(self.num_layers, encoder_out.shape[0], self.hidden_size).to(self.device).requires_grad_()
+        c0 = torch.zeros(self.num_layers, encoder_out.shape[0], self.hidden_size).to(self.device).requires_grad_()
+        embeddings = self.dropout(self.embed(captions))
+        embeddings = torch.cat((encoder_out.unsqueeze(0), embeddings), dim=0)
+        hiddens, (hn, cn) = self.lstm(embeddings, (h0.detach(), c0.detach()))
+        outputs = self.linear(hiddens)
+        return outputs
+class SeqToSeq(nn.Module):
+    def __init__(self, embed_size, hidden_size, vocab_size, num_layers, device = 'cpu'):
+        super(SeqToSeq, self).__init__()
+        self.encoder = InceptionEncoder(embed_size)
+        self.decoder = LstmDecoder(embed_size, hidden_size, vocab_size, num_layers, device)
+    def forward(self, images, captions):
+        features = self.encoder(images)
+        outputs = self.decoder(features, captions)
+        return outputs
+    def caption_image(self, image, vocabulary, max_length = 50):
+        result_caption = []
+        with torch.no_grad():
+            x = self.encoder(image).unsqueeze(0)
+            states = None
+            for _ in range(max_length):
+                hiddens, states = self.decoder.lstm(x, states)
+                output = self.decoder.linear(hiddens.squeeze(0))
+                predicted = output.argmax(1)
+                result_caption.append(predicted.item())
+                x = self.decoder.embed(predicted).unsqueeze(0)
+                if vocabulary[str(predicted.item())] == "<EOS>":
+                    break
+        return [vocabulary[str(idx)] for idx in result_caption]

neuralnet/train.py ADDED Viewed

	@@ -0,0 +1,130 @@

+import torch
+from tqdm import tqdm
+import torch.nn as nn
+import torch.optim as optim
+import torchvision.transforms as transforms
+from torch.utils.tensorboard import SummaryWriter # For TensorBoard
+from utils import save_checkpoint, load_checkpoint, print_examples
+from dataset import get_loader
+from model import SeqToSeq
+from tabulate import tabulate # To tabulate loss and epoch
+import argparse
+import json
+def main(args):
+    transform = transforms.Compose(
+        [
+            transforms.Resize((356, 356)),
+            transforms.RandomCrop((299, 299)),
+            transforms.ToTensor(),
+            transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
+        ]
+    )
+    train_loader, _ = get_loader(
+        root_folder = args.root_dir,
+        annotation_file = args.csv_file,
+        transform=transform,
+        batch_size = 64,
+        num_workers=2,
+    )
+    vocab = json.load(open('vocab.json'))
+    torch.backends.cudnn.benchmark = True
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    load_model = False
+    save_model = True
+    train_CNN = False
+    # Hyperparameters
+    embed_size = args.embed_size
+    hidden_size = args.hidden_size
+    vocab_size = len(vocab['stoi'])
+    num_layers = args.num_layers
+    learning_rate = args.lr
+    num_epochs = args.num_epochs
+    # for tensorboard
+    writer = SummaryWriter(args.log_dir)
+    step = 0
+    model_params = {'embed_size': embed_size, 'hidden_size': hidden_size, 'vocab_size':vocab_size, 'num_layers':num_layers}
+    # initialize model, loss etc
+    model = SeqToSeq(**model_params, device = device).to(device)
+    criterion = nn.CrossEntropyLoss(ignore_index = vocab['stoi']["<PAD>"])
+    optimizer = optim.Adam(model.parameters(), lr=learning_rate)
+    # Only finetune the CNN
+    for name, param in model.encoder.inception.named_parameters():
+        if "fc.weight" in name or "fc.bias" in name:
+            param.requires_grad = True
+        else:
+            param.requires_grad = train_CNN
+    #load from a save checkpoint
+    if load_model:
+        step = load_checkpoint(torch.load(args.save_path), model, optimizer)
+    model.train()
+    best_loss, best_epoch = 10, 0
+    for epoch in range(num_epochs):
+        print_examples(model, device, vocab['itos'])
+        for idx, (imgs, captions) in tqdm(
+            enumerate(train_loader), total=len(train_loader), leave=False):
+            imgs = imgs.to(device)
+            captions = captions.to(device)
+            outputs = model(imgs, captions[:-1])
+            loss = criterion(
+                outputs.reshape(-1, outputs.shape[2]), captions.reshape(-1)
+            )
+            writer.add_scalar("Training loss", loss.item(), global_step=step)
+            step += 1
+            optimizer.zero_grad()
+            loss.backward(loss)
+            optimizer.step()
+        train_loss = loss.item()
+        if train_loss < best_loss:
+            best_loss = train_loss
+            best_epoch = epoch + 1
+            if save_model:
+                checkpoint = {
+                    "model_params": model_params,
+		            "state_dict": model.state_dict(),
+		            "optimizer": optimizer.state_dict(),
+		            "step": step
+		        }
+                save_checkpoint(checkpoint, args.save_path)
+        table = [["Loss:", train_loss],
+				["Step:", step],
+                ["Epoch:", epoch + 1],
+		 		["Best Loss:", best_loss],
+		  		["Best Epoch:", best_epoch]]
+        print(tabulate(table))
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--root_dir', type = str, default = './flickr30k/flickr30k_images', help = 'path to images folder')
+    parser.add_argument('--csv_file', type = str, default = './flickr30k/results.csv', help = 'path to captions csv file')
+    parser.add_argument('--log_dir', type = str, default = './drive/MyDrive/TensorBoard/', help = 'path to save tensorboard logs')
+    parser.add_argument('--save_path', type = str, default = './drive/MyDrive/checkpoints/Seq2Seq.pt', help = 'path to save checkpoint')
+    # Model Params
+    parser.add_argument('--batch_size', type = int, default = 64)
+    parser.add_argument('--num_epochs', type = int, default = 100)
+    parser.add_argument('--embed_size', type = int, default=256)
+    parser.add_argument('--hidden_size', type = int, default=512)
+    parser.add_argument('--lr', type = float, default= 0.001)
+    parser.add_argument('--num_layers', type = int, default = 3, help = 'number of lstm layers')
+    args = parser.parse_args()
+    main(args)

neuralnet/utils.py ADDED Viewed

	@@ -0,0 +1,42 @@

+import torch
+import torchvision.transforms as transforms
+from PIL import Image
+def print_examples(model, device, vocab):
+    transform = transforms.Compose(
+        [transforms.Resize((299, 299)),
+        transforms.ToTensor(),
+        transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]
+    )
+    model.eval()
+    test_img1 = transform(Image.open("./test_examples/dog.png").convert("RGB")).unsqueeze(0)
+    print("dog.png PREDICTION: " + " ".join(model.caption_image(test_img1.to(device), vocab)))
+    test_img2 = transform(Image.open("./test_examples/dirt_bike.png").convert("RGB")).unsqueeze(0)
+    print("dirt_bike.png PREDICTION: " + " ".join(model.caption_image(test_img2.to(device), vocab)))
+    test_img3 = transform(Image.open("./test_examples/surfing.png").convert("RGB")).unsqueeze(0)
+    print("wave.png PREDICTION: " + " ".join(model.caption_image(test_img3.to(device), vocab)))
+    test_img4 = transform(Image.open("./test_examples/horse.png").convert("RGB")).unsqueeze(0)
+    print("horse.png PREDICTION: " + " ".join(model.caption_image(test_img4.to(device), vocab)))
+    test_img5 = transform(Image.open("./test_examples/camera.png").convert("RGB")).unsqueeze(0)
+    print("camera.png PREDICTION: " + " ".join(model.caption_image(test_img5.to(device), vocab)))
+    model.train()
+def save_checkpoint(state, filename="/content/drive/MyDrive/checkpoints/Seq2Seq.pt"):
+    print("=> Saving checkpoint")
+    torch.save(state, filename)
+def load_checkpoint(checkpoint, model, optimizer):
+    print("=> Loading checkpoint")
+    model.load_state_dict(checkpoint["state_dict"])
+    optimizer.load_state_dict(checkpoint["optimizer"])
+    step = checkpoint["step"]
+    return step