Spaces:

Jyothirmai
/

image-captioning-chest-xrays

Sleeping

App Files Files Community

image-captioning-chest-xrays / models_debugger.py

Jyothirmai

Upload 10 files

26e26de verified 5 months ago

raw

history blame

29.8 kB

	import torch
	import torch.nn as nn
	import torchvision
	import numpy as np
	from torch.autograd import Variable
	from torchvision.models.vgg import model_urls as vgg_model_urls
	import torchvision.models as models

	from utils.tcn import *


	class DenseNet121(nn.Module):
	def __init__(self, classes=14, pretrained=True):
	super(DenseNet121, self).__init__()
	self.model = torchvision.models.densenet121(pretrained=pretrained)
	num_in_features = self.model.classifier.in_features
	self.model.classifier = nn.Sequential(
	nn.Linear(in_features=num_in_features, out_features=classes, bias=True),
	# nn.Sigmoid()
	)

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.densenet121(x)
	return x


	class DenseNet161(nn.Module):
	def __init__(self, classes=156, pretrained=True):
	super(DenseNet161, self).__init__()
	self.model = torchvision.models.densenet161(pretrained=pretrained)
	num_in_features = self.model.classifier.in_features
	self.model.classifier = nn.Sequential(
	self.__init_linear(in_features=num_in_features, out_features=classes),
	# nn.Sigmoid()
	)

	def __init_linear(self, in_features, out_features):
	func = nn.Linear(in_features=in_features, out_features=out_features, bias=True)
	func.weight.data.normal_(0, 0.1)
	return func

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.model(x)
	return x


	class DenseNet169(nn.Module):
	def __init__(self, classes=156, pretrained=True):
	super(DenseNet169, self).__init__()
	self.model = torchvision.models.densenet169(pretrained=pretrained)
	num_in_features = self.model.classifier.in_features
	self.model.classifier = nn.Sequential(
	self.__init_linear(in_features=num_in_features, out_features=classes),
	# nn.Sigmoid()
	)

	def __init_linear(self, in_features, out_features):
	func = nn.Linear(in_features=in_features, out_features=out_features, bias=True)
	func.weight.data.normal_(0, 0.1)
	return func

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.model(x)
	return x


	class DenseNet201(nn.Module):
	def __init__(self, classes=156, pretrained=True):
	super(DenseNet201, self).__init__()
	self.model = torchvision.models.densenet201(pretrained=pretrained)
	num_in_features = self.model.classifier.in_features
	self.model.classifier = nn.Sequential(
	self.__init_linear(in_features=num_in_features, out_features=classes),
	nn.Sigmoid()
	)

	def __init_linear(self, in_features, out_features):
	func = nn.Linear(in_features=in_features, out_features=out_features, bias=True)
	func.weight.data.normal_(0, 0.1)
	return func

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.model(x)
	return x


	class ResNet18(nn.Module):
	def __init__(self, classes=156, pretrained=True):
	super(ResNet18, self).__init__()
	self.model = torchvision.models.resnet18(pretrained=pretrained)
	num_in_features = self.model.fc.in_features
	self.model.fc = nn.Sequential(
	self.__init_linear(in_features=num_in_features, out_features=classes),
	# nn.Sigmoid()
	)

	def __init_linear(self, in_features, out_features):
	func = nn.Linear(in_features=in_features, out_features=out_features, bias=True)
	func.weight.data.normal_(0, 0.1)
	return func

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.model(x)
	return x


	class ResNet34(nn.Module):
	def __init__(self, classes=156, pretrained=True):
	super(ResNet34, self).__init__()
	self.model = torchvision.models.resnet34(pretrained=pretrained)
	num_in_features = self.model.fc.in_features
	self.model.fc = nn.Sequential(
	self.__init_linear(in_features=num_in_features, out_features=classes),
	# nn.Sigmoid()
	)

	def __init_linear(self, in_features, out_features):
	func = nn.Linear(in_features=in_features, out_features=out_features, bias=True)
	func.weight.data.normal_(0, 0.1)
	return func

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.model(x)
	return x


	class ResNet50(nn.Module):
	def __init__(self, classes=156, pretrained=True):
	super(ResNet50, self).__init__()
	self.model = torchvision.models.resnet50(pretrained=pretrained)
	num_in_features = self.model.fc.in_features
	self.model.fc = nn.Sequential(
	self.__init_linear(in_features=num_in_features, out_features=classes),
	# nn.Sigmoid()
	)

	def __init_linear(self, in_features, out_features):
	func = nn.Linear(in_features=in_features, out_features=out_features, bias=True)
	func.weight.data.normal_(0, 0.1)
	return func

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.model(x)
	return x


	class ResNet101(nn.Module):
	def __init__(self, classes=156, pretrained=True):
	super(ResNet101, self).__init__()
	self.model = torchvision.models.resnet101(pretrained=pretrained)
	num_in_features = self.model.fc.in_features
	self.model.fc = nn.Sequential(
	self.__init_linear(in_features=num_in_features, out_features=classes),
	# nn.Sigmoid()
	)

	def __init_linear(self, in_features, out_features):
	func = nn.Linear(in_features=in_features, out_features=out_features, bias=True)
	func.weight.data.normal_(0, 0.1)
	return func

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.model(x)
	return x


	class ResNet152(nn.Module):
	def __init__(self, classes=156, pretrained=True):
	super(ResNet152, self).__init__()
	self.model = torchvision.models.resnet152(pretrained=pretrained)
	num_in_features = self.model.fc.in_features
	self.model.fc = nn.Sequential(
	self.__init_linear(in_features=num_in_features, out_features=classes),
	# nn.Sigmoid()
	)

	def __init_linear(self, in_features, out_features):
	func = nn.Linear(in_features=in_features, out_features=out_features, bias=True)
	func.weight.data.normal_(0, 0.1)
	return func

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.model(x)
	return x


	class VGG19(nn.Module):
	def __init__(self, classes=14, pretrained=True):
	super(VGG19, self).__init__()
	self.model = torchvision.models.vgg19_bn(pretrained=pretrained)
	self.model.classifier = nn.Sequential(
	self.__init_linear(in_features=25088, out_features=4096),
	nn.ReLU(),
	nn.Dropout(0.5),
	self.__init_linear(in_features=4096, out_features=4096),
	nn.ReLU(),
	nn.Dropout(0.5),
	self.__init_linear(in_features=4096, out_features=classes),
	# nn.Sigmoid()
	)

	def __init_linear(self, in_features, out_features):
	func = nn.Linear(in_features=in_features, out_features=out_features, bias=True)
	func.weight.data.normal_(0, 0.1)
	return func

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.model(x)
	return x


	class VGG(nn.Module):
	def __init__(self, tags_num):
	super(VGG, self).__init__()
	vgg_model_urls['vgg19'] = vgg_model_urls['vgg19'].replace('https://', 'http://')
	self.vgg19 = models.vgg19(pretrained=True)
	vgg19_classifier = list(self.vgg19.classifier.children())[:-1]
	self.classifier = nn.Sequential(*vgg19_classifier)
	self.fc = nn.Linear(4096, tags_num)
	self.fc.apply(self.init_weights)
	self.bn = nn.BatchNorm1d(tags_num, momentum=0.1)
	# self.init_weights()

	def init_weights(self, m):
	if type(m) == nn.Linear:
	self.fc.weight.data.normal_(0, 0.1)
	self.fc.bias.data.fill_(0)

	def forward(self, images) -> object:
	"""

	:rtype: object
	"""
	visual_feats = self.vgg19.features(images)
	tags_classifier = visual_feats.view(visual_feats.size(0), -1)
	tags_classifier = self.bn(self.fc(self.classifier(tags_classifier)))
	return tags_classifier


	class InceptionV3(nn.Module):
	def __init__(self, classes=156, pretrained=True):
	super(InceptionV3, self).__init__()
	self.model = torchvision.models.inception_v3(pretrained=pretrained)
	num_in_features = self.model.classifier.in_features
	self.model.classifier = nn.Sequential(
	self.__init_linear(in_features=num_in_features, out_features=classes),
	# nn.Sigmoid()
	)

	def __init_linear(self, in_features, out_features):
	func = nn.Linear(in_features=in_features, out_features=out_features, bias=True)
	func.weight.data.normal_(0, 0.1)
	return func

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.model(x)
	return x


	class CheXNetDenseNet121(nn.Module):
	def __init__(self, classes=14, pretrained=True):
	super(CheXNetDenseNet121, self).__init__()
	self.densenet121 = torchvision.models.densenet121(pretrained=pretrained)
	num_in_features = self.densenet121.classifier.in_features
	self.densenet121.classifier = nn.Sequential(
	nn.Linear(in_features=num_in_features, out_features=classes, bias=True),
	nn.Sigmoid()
	)

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.densenet121(x)
	return x


	class CheXNet(nn.Module):
	def __init__(self, classes=156):
	super(CheXNet, self).__init__()
	self.densenet121 = CheXNetDenseNet121(classes=14)
	self.densenet121 = torch.nn.DataParallel(self.densenet121).cuda()
	self.densenet121.load_state_dict(torch.load('./models/CheXNet.pth.tar')['state_dict'])
	self.densenet121.module.densenet121.classifier = nn.Sequential(
	self.__init_linear(1024, classes),
	nn.Sigmoid()
	)

	def __init_linear(self, in_features, out_features):
	func = nn.Linear(in_features=in_features, out_features=out_features, bias=True)
	func.weight.data.normal_(0, 0.1)
	return func

	def forward(self, x) -> object:
	"""

	:rtype: object
	"""
	x = self.densenet121(x)
	return x


	class ModelFactory(object):
	def __init__(self, model_name, pretrained, classes):
	self.model_name = model_name
	self.pretrained = pretrained
	self.classes = classes

	def create_model(self):
	if self.model_name == 'VGG19':
	_model = VGG19(pretrained=self.pretrained, classes=self.classes)
	elif self.model_name == 'DenseNet121':
	_model = DenseNet121(pretrained=self.pretrained, classes=self.classes)
	elif self.model_name == 'DenseNet161':
	_model = DenseNet161(pretrained=self.pretrained, classes=self.classes)
	elif self.model_name == 'DenseNet169':
	_model = DenseNet169(pretrained=self.pretrained, classes=self.classes)
	elif self.model_name == 'DenseNet201':
	_model = DenseNet201(pretrained=self.pretrained, classes=self.classes)
	elif self.model_name == 'CheXNet':
	_model = CheXNet(classes=self.classes)
	elif self.model_name == 'ResNet18':
	_model = ResNet18(pretrained=self.pretrained, classes=self.classes)
	elif self.model_name == 'ResNet34':
	_model = ResNet34(pretrained=self.pretrained, classes=self.classes)
	elif self.model_name == 'ResNet50':
	_model = ResNet50(pretrained=self.pretrained, classes=self.classes)
	elif self.model_name == 'ResNet101':
	_model = ResNet101(pretrained=self.pretrained, classes=self.classes)
	elif self.model_name == 'ResNet152':
	_model = ResNet152(pretrained=self.pretrained, classes=self.classes)
	elif self.model_name == 'VGG':
	_model = VGG(tags_num=self.classes)
	else:
	_model = CheXNet(classes=self.classes)

	return _model


	class EncoderCNN(nn.Module):
	def __init__(self, embed_size, pretrained=True):
	super(EncoderCNN, self).__init__()
	# TODO Extract Image features from CNN based on other models
	resnet = models.resnet152(pretrained=pretrained)
	modules = list(resnet.children())[:-1]
	self.resnet = nn.Sequential(*modules)
	self.linear = nn.Linear(resnet.fc.in_features, embed_size)
	self.bn = nn.BatchNorm1d(embed_size, momentum=0.1)
	self.__init_weights()

	def __init_weights(self):
	self.linear.weight.data.normal_(0.0, 0.1)
	self.linear.bias.data.fill_(0)

	def forward(self, images) -> object:
	"""

	:rtype: object
	"""
	features = self.resnet(images)
	features = Variable(features.data)
	features = features.view(features.size(0), -1)
	features = self.bn(self.linear(features))
	return features


	class DecoderRNN(nn.Module):
	def __init__(self, embed_size, hidden_size, vocab_size, num_layers, n_max=50):
	super(DecoderRNN, self).__init__()
	self.embed = nn.Embedding(vocab_size, embed_size)
	self.lstm = nn.LSTM(embed_size, hidden_size, num_layers, batch_first=True)
	self.linear = nn.Linear(hidden_size, vocab_size)
	self.__init_weights()
	self.n_max = n_max

	def __init_weights(self):
	self.embed.weight.data.uniform_(-0.1, 0.1)
	self.linear.weight.data.uniform_(-0.1, 0.1)
	self.linear.bias.data.fill_(0)

	def forward(self, features, captions) -> object:
	"""

	:rtype: object
	"""
	embeddings = self.embed(captions)
	embeddings = torch.cat((features.unsqueeze(1), embeddings), 1)
	hidden, _ = self.lstm(embeddings)
	outputs = self.linear(hidden[:, -1, :])
	return outputs

	def sample(self, features, start_tokens):
	sampled_ids = np.zeros((np.shape(features)[0], self.n_max))
	predicted = start_tokens
	embeddings = features
	embeddings = embeddings.unsqueeze(1)

	for i in range(self.n_max):
	predicted = self.embed(predicted)
	embeddings = torch.cat([embeddings, predicted], dim=1)
	hidden_states, _ = self.lstm(embeddings)
	hidden_states = hidden_states[:, -1, :]
	outputs = self.linear(hidden_states)
	predicted = torch.max(outputs, 1)[1]
	sampled_ids[:, i] = predicted
	predicted = predicted.unsqueeze(1)
	return sampled_ids


	class VisualFeatureExtractor(nn.Module):
	def __init__(self, pretrained=False):
	super(VisualFeatureExtractor, self).__init__()
	resnet = models.resnet152(pretrained=pretrained)
	modules = list(resnet.children())[:-1]
	self.resnet = nn.Sequential(*modules)
	self.out_features = resnet.fc.in_features

	def forward(self, images) -> object:
	"""

	:rtype: object
	"""
	features = self.resnet(images)
	features = features.view(features.size(0), -1)
	return features


	class MLC(nn.Module):
	def __init__(self, classes=156, sementic_features_dim=512, fc_in_features=2048, k=10):
	super(MLC, self).__init__()
	self.classifier = nn.Linear(in_features=fc_in_features, out_features=classes)
	self.embed = nn.Embedding(classes, sementic_features_dim)
	self.k = k
	self.softmax = nn.Softmax()

	def forward(self, visual_features) -> object:
	"""

	:rtype: object
	"""
	tags = self.softmax(self.classifier(visual_features))
	semantic_features = self.embed(torch.topk(tags, self.k)[1])
	return tags, semantic_features


	class CoAttention(nn.Module):
	def __init__(self, embed_size=512, hidden_size=512, visual_size=2048):
	super(CoAttention, self).__init__()
	self.W_v = nn.Linear(in_features=visual_size, out_features=visual_size)
	self.bn_v = nn.BatchNorm1d(num_features=visual_size, momentum=0.1)

	self.W_v_h = nn.Linear(in_features=hidden_size, out_features=visual_size)
	self.bn_v_h = nn.BatchNorm1d(num_features=visual_size, momentum=0.1)

	self.W_v_att = nn.Linear(in_features=visual_size, out_features=visual_size)
	self.bn_v_att = nn.BatchNorm1d(num_features=visual_size, momentum=0.1)

	self.W_a = nn.Linear(in_features=hidden_size, out_features=hidden_size)
	self.bn_a = nn.BatchNorm1d(num_features=10, momentum=0.1)

	self.W_a_h = nn.Linear(in_features=hidden_size, out_features=hidden_size)
	self.bn_a_h = nn.BatchNorm1d(num_features=1, momentum=0.1)

	self.W_a_att = nn.Linear(in_features=hidden_size, out_features=hidden_size, bias=True)
	self.bn_a_att = nn.BatchNorm1d(num_features=10, momentum=0.1)

	self.W_fc = nn.Linear(in_features=visual_size + hidden_size, out_features=embed_size)
	self.bn_fc = nn.BatchNorm1d(num_features=embed_size, momentum=0.1)

	self.tanh = nn.Tanh()
	self.softmax = nn.Softmax()

	def forward(self, visual_features, semantic_features, h_sent) -> object:
	"""
	only training
	:rtype: object
	"""
	W_v = self.bn_v(self.W_v(visual_features))
	W_v_h = self.bn_v_h(self.W_v_h(h_sent.squeeze(1)))

	alpha_v = self.softmax(self.bn_v_att(self.W_v_att(self.tanh(W_v + W_v_h))))
	v_att = torch.mul(alpha_v, visual_features)
	# v_att = torch.mul(alpha_v, visual_features).sum(1).unsqueeze(1)

	W_a_h = self.bn_a_h(self.W_a_h(h_sent))
	W_a = self.bn_a(self.W_a(semantic_features))
	alpha_a = self.softmax(self.bn_a_att(self.W_a_att(self.tanh(torch.add(W_a_h, W_a)))))
	a_att = torch.mul(alpha_a, semantic_features).sum(1)
	# a_att = (alpha_a * semantic_features).sum(1)
	ctx = self.bn_fc(self.W_fc(torch.cat([v_att, a_att], dim=1)))
	# return self.W_fc(self.bn_fc(torch.cat([v_att, a_att], dim=1)))
	return ctx, v_att


	class SentenceLSTM(nn.Module):
	def __init__(self, embed_size=512, hidden_size=512, num_layers=1):
	super(SentenceLSTM, self).__init__()
	self.lstm = nn.LSTM(input_size=embed_size, hidden_size=hidden_size, num_layers=num_layers)
	self.W_t_h = nn.Linear(in_features=hidden_size, out_features=embed_size, bias=True)
	self.bn_t_h = nn.BatchNorm1d(num_features=1, momentum=0.1)

	self.W_t_ctx = nn.Linear(in_features=embed_size, out_features=embed_size, bias=True)
	self.bn_t_ctx = nn.BatchNorm1d(num_features=1, momentum=0.1)

	self.W_stop_s_1 = nn.Linear(in_features=hidden_size, out_features=embed_size, bias=True)
	self.bn_stop_s_1 = nn.BatchNorm1d(num_features=1, momentum=0.1)

	self.W_stop_s = nn.Linear(in_features=hidden_size, out_features=embed_size, bias=True)
	self.bn_stop_s = nn.BatchNorm1d(num_features=1, momentum=0.1)

	self.W_stop = nn.Linear(in_features=embed_size, out_features=2, bias=True)
	self.bn_stop = nn.BatchNorm1d(num_features=1, momentum=0.1)

	self.W_topic = nn.Linear(in_features=embed_size, out_features=embed_size, bias=True)
	self.bn_topic = nn.BatchNorm1d(num_features=1, momentum=0.1)

	self.W_topic_2 = nn.Linear(in_features=embed_size, out_features=embed_size, bias=True)
	self.bn_topic_2 = nn.BatchNorm1d(num_features=1, momentum=0.1)

	self.sigmoid = nn.Sigmoid()
	self.tanh = nn.Tanh()

	# def forward(self, ctx, prev_hidden_state, states=None) -> object:
	# """
	# Only training
	# :rtype: object
	# """
	# ctx = ctx.unsqueeze(1)
	# hidden_state, states = self.lstm(ctx, states)
	# topic = self.bn_topic(self.W_topic(self.sigmoid(self.bn_t_h(self.W_t_h(hidden_state))
	# + self.bn_t_ctx(self.W_t_ctx(ctx)))))
	# p_stop = self.bn_stop(self.W_stop(self.sigmoid(self.bn_stop_s_1(self.W_stop_s_1(prev_hidden_state))
	# + self.bn_stop_s(self.W_stop_s(hidden_state)))))
	# return topic, p_stop, hidden_state, states

	def forward(self, ctx, prev_hidden_state, states=None) -> object:
	"""
	v2
	:rtype: object
	"""
	ctx = ctx.unsqueeze(1)
	hidden_state, states = self.lstm(ctx, states)
	topic = self.bn_topic(self.W_topic(self.tanh(self.bn_t_h(self.W_t_h(hidden_state)
	+ self.W_t_ctx(ctx)))))
	p_stop = self.bn_stop(self.W_stop(self.tanh(self.bn_stop_s(self.W_stop_s_1(prev_hidden_state)
	+ self.W_stop_s(hidden_state)))))
	return topic, p_stop, hidden_state, states


	class SentenceTCN(nn.Module):
	def __init__(self,
	input_channel=10,
	embed_size=512,
	output_size=512,
	nhid=512,
	levels=8,
	kernel_size=2,
	dropout=0):
	super(SentenceTCN, self).__init__()
	channel_sizes = [nhid] * levels
	self.tcn = TCN(input_size=input_channel,
	output_size=output_size,
	num_channels=channel_sizes,
	kernel_size=kernel_size,
	dropout=dropout)
	self.W_t_h = nn.Linear(in_features=output_size, out_features=embed_size, bias=True)
	self.W_t_ctx = nn.Linear(in_features=output_size, out_features=embed_size, bias=True)
	self.W_stop_s_1 = nn.Linear(in_features=output_size, out_features=embed_size, bias=True)
	self.W_stop_s = nn.Linear(in_features=output_size, out_features=embed_size, bias=True)
	self.W_stop = nn.Linear(in_features=embed_size, out_features=2, bias=True)
	self.t_w = nn.Linear(in_features=5120, out_features=2, bias=True)
	self.tanh = nn.Tanh()

	def forward(self, ctx, prev_output) -> object:
	"""

	:rtype: object
	"""
	output = self.tcn.forward(ctx)
	topic = self.tanh(self.W_t_h(output) + self.W_t_ctx(ctx[:, -1, :]).squeeze(1))
	p_stop = self.W_stop(self.tanh(self.W_stop_s_1(prev_output) + self.W_stop_s(output)))
	return topic, p_stop, output


	class WordLSTM(nn.Module):
	def __init__(self, embed_size, hidden_size, vocab_size, num_layers, n_max=50):
	super(WordLSTM, self).__init__()
	self.embed = nn.Embedding(vocab_size, embed_size)
	self.lstm = nn.LSTM(embed_size, hidden_size, num_layers, batch_first=True)
	self.linear = nn.Linear(hidden_size, vocab_size)
	self.__init_weights()
	self.n_max = n_max
	self.vocab_size = vocab_size

	def __init_weights(self):
	self.embed.weight.data.uniform_(-0.1, 0.1)
	self.linear.weight.data.uniform_(-0.1, 0.1)
	self.linear.bias.data.fill_(0)

	def forward(self, topic_vec, captions) -> object:
	"""

	:rtype: object
	"""
	embeddings = self.embed(captions)
	embeddings = torch.cat((topic_vec, embeddings), 1)
	hidden, _ = self.lstm(embeddings)
	outputs = self.linear(hidden[:, -1, :])
	return outputs

	def val(self, features, start_tokens):
	samples = torch.zeros((np.shape(features)[0], self.n_max, self.vocab_size))
	samples[:, 0, start_tokens[0]] = 1
	predicted = start_tokens
	embeddings = features
	embeddings = embeddings

	for i in range(1, self.n_max):
	predicted = self.embed(predicted)
	embeddings = torch.cat([embeddings, predicted], dim=1)
	hidden_states, _ = self.lstm(embeddings)
	hidden_states = hidden_states[:, -1, :]
	outputs = self.linear(hidden_states)
	samples[:, i, :] = outputs
	predicted = torch.max(outputs, 1)[1]
	predicted = predicted.unsqueeze(1)
	return samples

	def sample(self, features, start_tokens):
	sampled_ids = np.zeros((np.shape(features)[0], self.n_max))
	sampled_ids[:, 0] = start_tokens.view(-1,)
	predicted = start_tokens
	embeddings = features
	embeddings = embeddings

	for i in range(1, self.n_max):
	predicted = self.embed(predicted)
	embeddings = torch.cat([embeddings, predicted], dim=1)
	hidden_states, _ = self.lstm(embeddings)
	hidden_states = hidden_states[:, -1, :]
	outputs = self.linear(hidden_states)
	predicted = torch.max(outputs, 1)[1]
	sampled_ids[:, i] = predicted
	predicted = predicted.unsqueeze(1)
	return sampled_ids


	class WordTCN(nn.Module):
	def __init__(self,
	input_channel=11,
	vocab_size=1000,
	embed_size=512,
	output_size=512,
	nhid=512,
	levels=8,
	kernel_size=2,
	dropout=0,
	n_max=50):
	super(WordTCN, self).__init__()
	self.vocab_size = vocab_size
	self.embed_size = embed_size
	self.output_size = output_size
	channel_sizes = [nhid] * levels
	self.kernel_size = kernel_size
	self.dropout = dropout
	self.n_max = n_max
	self.embed = nn.Embedding(vocab_size, embed_size)
	self.W_out = nn.Linear(in_features=output_size, out_features=vocab_size, bias=True)
	self.tcn = TCN(input_size=input_channel,
	output_size=output_size,
	num_channels=channel_sizes,
	kernel_size=kernel_size,
	dropout=dropout)

	def forward(self, topic_vec, captions) -> object:
	"""

	:rtype: object
	"""
	captions = self.embed(captions)
	embeddings = torch.cat([topic_vec, captions], dim=1)
	output = self.tcn.forward(embeddings)
	words = self.W_out(output)
	return words


	if __name__ == '__main__':
	import warnings
	warnings.filterwarnings("ignore")
	images = torch.randn((4, 3, 224, 224))
	captions = torch.ones((4, 10)).long()
	hidden_state = torch.randn((4, 1, 512))

	print("images:{}".format(images.shape))
	print("captions:{}".format(captions.shape))
	print("hidden_states:{}".format(hidden_state.shape))

	extractor = VisualFeatureExtractor()
	visual_features = extractor.forward(images)
	print("visual_features:{}".format(visual_features.shape))

	mlc = MLC()
	tags, semantic_features = mlc.forward(visual_features)
	print("tags:{}".format(tags.shape))
	print("semantic_features:{}".format(semantic_features.shape))

	co_att = CoAttention()
	ctx, v_att = co_att.forward(visual_features, semantic_features, hidden_state)
	print("ctx:{}".format(ctx.shape))
	print("v_att:{}".format(v_att.shape))

	sent_lstm = SentenceLSTM()
	topic, p_stop, hidden_state, states = sent_lstm.forward(ctx, hidden_state)
	print("Topic:{}".format(topic.shape))
	print("P_STOP:{}".format(p_stop.shape))

	word_lstm = WordLSTM(embed_size=512, hidden_size=512, vocab_size=100, num_layers=1)
	words = word_lstm.forward(topic, captions)
	print("words:{}".format(words.shape))

	# Expected Output
	# images: torch.Size([4, 3, 224, 224])
	# captions: torch.Size([4, 1, 10])
	# hidden_states: torch.Size([4, 1, 512])
	# visual_features: torch.Size([4, 2048, 7, 7])
	# tags: torch.Size([4, 156])
	# semantic_features: torch.Size([4, 10, 512])
	# ctx: torch.Size([4, 512])
	# Topic: torch.Size([4, 1, 512])
	# P_STOP: torch.Size([4, 1, 2])
	# words: torch.Size([4, 1000])

	# images = torch.randn((4, 3, 224, 224))
	# captions = torch.ones((4, 3, 10)).long()
	# prev_outputs = torch.randn((4, 512))
	# now_words = torch.ones((4, 1))
	#
	# ctx_records = torch.zeros((4, 10, 512))
	# captions = torch.zeros((4, 10)).long()
	#
	# print("images:{}".format(images.shape))
	# print("captions:{}".format(captions.shape))
	# print("hidden_states:{}".format(prev_outputs.shape))
	#
	# extractor = VisualFeatureExtractor()
	# visual_features = extractor.forward(images)
	# print("visual_features:{}".format(visual_features.shape))
	#
	# mlc = MLC()
	# tags, semantic_features = mlc.forward(visual_features)
	# print("tags:{}".format(tags.shape))
	# print("semantic_features:{}".format(semantic_features.shape))
	#
	# co_att = CoAttention()
	# ctx = co_att.forward(visual_features, semantic_features, prev_outputs)
	# print("ctx:{}".format(ctx.shape))
	#
	# ctx_records[:, 0, :] = ctx
	#
	# sent_tcn = SentenceTCN()
	# topic, p_stop, prev_outputs = sent_tcn.forward(ctx_records, prev_outputs)
	# print("Topic:{}".format(topic.shape))
	# print("P_STOP:{}".format(p_stop.shape))
	# print("Prev_Outputs:{}".format(prev_outputs.shape))
	#
	# captions[:, 0] = now_words.view(-1,)
	#
	# word_tcn = WordTCN()
	# words = word_tcn.forward(topic, captions)
	# print("words:{}".format(words.shape))