codesage-large-v2 / modeling_codesage.py

Dejiao Z

initial push

e81a062 18 days ago

16.2 kB

	#!/usr/bin/env python
	# coding=utf-8
	# Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved.

	import math
	import torch
	import torch.utils.checkpoint
	from torch import nn
	from torch.nn import CrossEntropyLoss, MSELoss, BCEWithLogitsLoss
	from transformers.activations import ACT2FN
	from transformers.modeling_utils import Conv1D, PreTrainedModel
	from transformers.utils import logging
	from .config_codesage import CodeSageConfig
	from transformers.modeling_outputs import (
	BaseModelOutputWithPooling,
	MaskedLMOutput,
	SequenceClassifierOutput
	)

	logger = logging.get_logger(__name__)

	CODESAGE_PRETRAINED_MODEL_ARCHIVE_LIST = [
	"codesage/codesage-small-v2",
	"codesage/codesage-base-v2",
	"codesage/codesage-large-v2",
	# See all CodeSage models at https://huggingface.co/models?filter=codesage
	]


	class CodeSageAttention(nn.Module):
	def __init__(self, config):
	super().__init__()

	self.hidden_size = config.hidden_size
	self.num_heads = config.num_attention_heads
	self.head_dim = config.hidden_size // self.num_heads
	if self.head_dim * self.num_heads != config.hidden_size:
	raise ValueError(
	f"`hidden_size` must be divisible by num_heads "
	f"(got `hidden_size`: {config.hidden_size} and `num_heads`: {self.num_heads})."
	)

	self.c_attn = Conv1D(3 * self.hidden_size, self.hidden_size)
	self.c_proj = Conv1D(self.hidden_size, self.hidden_size)

	self.attention_dropout = nn.Dropout(config.attention_dropout_prob)
	self.residual_dropout = nn.Dropout(config.residual_dropout_prob)

	def attn(self, query, key, value, attention_mask=None, head_mask=None):
	attn_weights = torch.matmul(query, key.transpose(-1, -2))
	attn_weights = attn_weights / math.sqrt(self.head_dim)
	if attention_mask is not None:
	attn_weights = attn_weights + attention_mask

	attn_weights = nn.Softmax(dim=-1)(attn_weights)
	attn_weights = self.attention_dropout(attn_weights)
	if head_mask is not None:
	attn_weights = attn_weights * head_mask

	attn_output = torch.matmul(attn_weights, value)
	return attn_output, attn_weights

	def split_heads(self, tensor, num_heads, attn_head_size):
	"""
	Splits hidden_size dim into attn_head_size and num_heads
	"""
	new_shape = tensor.size()[:-1] + (num_heads, attn_head_size)
	tensor = tensor.view(*new_shape)
	return tensor.permute(0, 2, 1, 3) # (batch, head, seq_length, head_features)

	def merge_heads(self, tensor, num_heads, attn_head_size):
	"""
	Merges attn_head_size dim and num_attn_heads dim into hidden_size
	"""
	tensor = tensor.permute(0, 2, 1, 3).contiguous()
	new_shape = tensor.size()[:-2] + (num_heads * attn_head_size,)
	return tensor.view(new_shape)

	def forward(
	self,
	hidden_states,
	attention_mask=None,
	head_mask=None,
	output_attentions=False,
	):
	query, key, value = self.c_attn(hidden_states).split(self.hidden_size, dim=2)
	query = self.split_heads(query, self.num_heads, self.head_dim)
	key = self.split_heads(key, self.num_heads, self.head_dim)
	value = self.split_heads(value, self.num_heads, self.head_dim)

	attn_output, attn_weights = self.attn(query, key, value, attention_mask, head_mask)

	attn_output = self.merge_heads(attn_output, self.num_heads, self.head_dim)
	attn_output = self.c_proj(attn_output)
	attn_output = self.residual_dropout(attn_output)

	outputs = (attn_output, attn_weights) if output_attentions else (attn_output,)
	return outputs # a, present, (attentions)


	class CodeSageMLP(nn.Module):
	def __init__(self, intermediate_size, config):
	super().__init__()

	self.c_fc = Conv1D(intermediate_size, config.hidden_size)
	self.act = ACT2FN[config.activation_function]
	self.c_proj = Conv1D(config.hidden_size, intermediate_size)
	self.dropout = nn.Dropout(config.residual_dropout_prob)

	def forward(self, hidden_states):
	hidden_states = self.c_fc(hidden_states)
	hidden_states = self.act(hidden_states)
	hidden_states = self.c_proj(hidden_states)
	hidden_states = self.dropout(hidden_states)
	return hidden_states


	class CodeSageBlock(nn.Module):
	def __init__(self, config):
	super().__init__()
	hidden_size = config.hidden_size
	inner_dim = config.intermediate_size if config.intermediate_size is not None else 4 * hidden_size
	self.ln_1 = nn.LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
	self.attn = CodeSageAttention(config)
	self.ln_2 = nn.LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
	self.mlp = CodeSageMLP(inner_dim, config)

	def forward(
	self,
	hidden_states,
	attention_mask=None,
	head_mask=None,
	output_attentions=False,
	):
	residual = hidden_states
	hidden_states = self.ln_1(hidden_states)
	attn_outputs = self.attn(
	hidden_states,
	attention_mask=attention_mask,
	head_mask=head_mask,
	output_attentions=output_attentions
	)
	attn_output = attn_outputs[0] # output_attn: a, present, (attentions)
	outputs = attn_outputs[1:]
	hidden_states = attn_output + residual

	residual = hidden_states
	hidden_states = self.ln_2(hidden_states)
	feed_forward_hidden_states = self.mlp(hidden_states)
	hidden_states = residual + feed_forward_hidden_states

	outputs = (hidden_states,) + outputs[1:]
	return outputs # hidden_states, present, (attentions)


	class CodeSagePreTrainedModel(PreTrainedModel):
	config_class = CodeSageConfig
	base_model_prefix = "transformer"

	def _init_weights(self, module):
	"""Initialize the weights."""
	if isinstance(module, (nn.Linear, Conv1D)):
	module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)
	if module.bias is not None:
	module.bias.data.zero_()
	elif isinstance(module, nn.Embedding):
	module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)
	if module.padding_idx is not None:
	module.weight.data[module.padding_idx].zero_()
	elif isinstance(module, nn.LayerNorm):
	module.bias.data.zero_()
	module.weight.data.fill_(1.0)


	class CodeSageModel(CodeSagePreTrainedModel):
	def __init__(self, config):
	super().__init__(config)

	self.wte = nn.Embedding(config.vocab_size, config.hidden_size)
	self.wpe = nn.Embedding(config.max_position_embeddings, config.hidden_size)

	self.drop = nn.Dropout(config.embedding_dropout_prob)
	self.h = nn.ModuleList([CodeSageBlock(config) for _ in range(config.num_hidden_layers)])
	self.ln_f = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_epsilon)

	self.init_weights()

	def get_input_embeddings(self):
	return self.wte

	def set_input_embeddings(self, new_embeddings: torch.Tensor):
	self.wte = new_embeddings

	def forward(
	self,
	input_ids=None,
	attention_mask=None,
	position_ids=None,
	head_mask=None,
	inputs_embeds=None,
	output_attentions=None,
	output_hidden_states=None,
	return_dict=None
	):
	output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
	output_hidden_states = (
	output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
	)
	return_dict = return_dict if return_dict is not None else self.config.use_return_dict

	if input_ids is not None and inputs_embeds is not None:
	raise ValueError("You cannot specify both input_ids and inputs_embeds at the same time")
	if input_ids is not None:
	input_shape = input_ids.size()
	elif inputs_embeds is not None:
	input_shape = inputs_embeds.size()[:-1]
	else:
	raise ValueError("You have to specify either input_ids or inputs_embeds")

	device = input_ids.device if input_ids is not None else inputs_embeds.device
	if position_ids is None:
	position_ids = torch.arange(input_shape[-1], dtype=torch.long, device=device)
	position_ids = position_ids.unsqueeze(0).view(-1, input_shape[-1])
	else:
	position_ids = position_ids.view(-1, input_shape[-1])

	extended_attention_mask = None
	if attention_mask is not None:
	assert attention_mask.dim() == 2
	extended_attention_mask = attention_mask[:, None, None, :]
	extended_attention_mask = extended_attention_mask.to(dtype=self.dtype) # fp16 compatibility
	extended_attention_mask = (1.0 - extended_attention_mask) * -10000.0

	head_mask = self.get_head_mask(head_mask, self.config.num_hidden_layers)
	if inputs_embeds is None:
	inputs_embeds = self.wte(input_ids)

	position_embeds = self.wpe(position_ids)
	hidden_states = inputs_embeds + position_embeds

	hidden_states = self.drop(hidden_states)
	output_shape = input_shape + (hidden_states.size(-1),)

	all_self_attentions = () if output_attentions else None
	all_hidden_states = () if output_hidden_states else None
	for i, block in enumerate(self.h):
	if output_hidden_states:
	all_hidden_states = all_hidden_states + (hidden_states,)

	outputs = block(
	hidden_states,
	attention_mask=extended_attention_mask,
	head_mask=head_mask[i],
	output_attentions=output_attentions,
	)

	hidden_states = outputs[0]
	if output_attentions:
	all_self_attentions = all_self_attentions + (outputs[1],)

	hidden_states = self.ln_f(hidden_states)
	hidden_states = hidden_states.view(*output_shape)
	if output_hidden_states:
	all_hidden_states = all_hidden_states + (hidden_states,)

	pooled_output = None # max-pooled output
	if attention_mask is not None:
	pooled_output = (hidden_states * attention_mask[:, :, None]).sum(1) / attention_mask.sum(1)[:, None]

	if not return_dict:
	return tuple(
	v
	for v in [hidden_states, pooled_output, all_hidden_states, all_self_attentions]
	if v is not None
	)

	return BaseModelOutputWithPooling(
	last_hidden_state=hidden_states,
	pooler_output=pooled_output,
	hidden_states=all_hidden_states,
	attentions=all_self_attentions
	)


	class CodeSageForMaskedLM(CodeSagePreTrainedModel):
	_tied_weights_keys = ["lm_head.weight"]

	def __init__(self, config):
	super().__init__(config)
	self.transformer = CodeSageModel(config)
	self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)

	self.init_weights()

	def get_output_embeddings(self):
	return self.lm_head

	def set_output_embeddings(self, new_embeddings):
	self.lm_head = new_embeddings

	def forward(
	self,
	input_ids=None,
	attention_mask=None,
	position_ids=None,
	head_mask=None,
	inputs_embeds=None,
	labels=None,
	output_attentions=None,
	output_hidden_states=None,
	return_dict=None
	):
	return_dict = return_dict if return_dict is not None else self.config.use_return_dict

	transformer_outputs = self.transformer(
	input_ids,
	attention_mask=attention_mask,
	position_ids=position_ids,
	head_mask=head_mask,
	inputs_embeds=inputs_embeds,
	output_attentions=output_attentions,
	output_hidden_states=output_hidden_states,
	return_dict=return_dict
	)
	hidden_states = transformer_outputs[0]
	lm_logits = self.lm_head(hidden_states)

	masked_lm_loss = None
	if labels is not None:
	loss_fct = CrossEntropyLoss()
	masked_lm_loss = loss_fct(lm_logits.view(-1, lm_logits.size(-1)), labels.view(-1))

	if not return_dict:
	output = (lm_logits,) + transformer_outputs[1:]
	return ((masked_lm_loss,) + output) if masked_lm_loss is not None else output

	return MaskedLMOutput(
	loss=masked_lm_loss,
	logits=lm_logits,
	hidden_states=transformer_outputs.hidden_states,
	attentions=transformer_outputs.attentions,
	)


	class CodeSageForSequenceClassification(CodeSagePreTrainedModel):

	def __init__(self, config):
	super().__init__(config)
	self.num_labels = config.num_labels
	self.config = config

	self.transformer = CodeSageModel(config)
	classifier_dropout = (
	config.classifier_dropout
	if hasattr(config, 'classifier_dropout') and config.classifier_dropout is not None
	else config.residual_dropout_prob
	)
	self.dropout = nn.Dropout(classifier_dropout)
	self.classifier = nn.Linear(config.hidden_size, config.num_labels)

	# Initialize weights and apply final processing
	self.post_init()

	def forward(
	self,
	input_ids=None,
	attention_mask=None,
	position_ids=None,
	head_mask=None,
	inputs_embeds=None,
	labels=None,
	output_attentions=None,
	output_hidden_states=None,
	return_dict=None,
	):
	return_dict = return_dict if return_dict is not None else self.config.use_return_dict
	assert attention_mask is not None, "attention_mask is needed to perform max-pooling"

	outputs = self.transformer(
	input_ids,
	attention_mask=attention_mask,
	position_ids=position_ids,
	head_mask=head_mask,
	inputs_embeds=inputs_embeds,
	output_attentions=output_attentions,
	output_hidden_states=output_hidden_states,
	return_dict=return_dict,
	)

	pooled_output = outputs[1]
	pooled_output = self.dropout(pooled_output)
	logits = self.classifier(pooled_output)

	loss = None
	if labels is not None:
	if self.config.problem_type is None:
	if self.num_labels == 1:
	self.config.problem_type = "regression"
	elif self.num_labels > 1 and (labels.dtype == torch.long or labels.dtype == torch.int):
	self.config.problem_type = "single_label_classification"
	else:
	self.config.problem_type = "multi_label_classification"

	if self.config.problem_type == "regression":
	loss_fct = MSELoss()
	if self.num_labels == 1:
	loss = loss_fct(logits.squeeze(), labels.squeeze())
	else:
	loss = loss_fct(logits, labels)
	elif self.config.problem_type == "single_label_classification":
	loss_fct = CrossEntropyLoss()
	loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1))
	elif self.config.problem_type == "multi_label_classification":
	loss_fct = BCEWithLogitsLoss()
	loss = loss_fct(logits, labels)

	if not return_dict:
	output = (logits,) + outputs[2:]
	return ((loss,) + output) if loss is not None else output

	return SequenceClassifierOutput(
	loss=loss,
	logits=logits,
	hidden_states=outputs.hidden_states,
	attentions=outputs.attentions,
	)