JoseRFJunior
/

TransNAR

Model card Files Files and versions Community

JoseRFJunior commited on Aug 8

Commit

71ae6c3

•

1 Parent(s): 3dbe7e0

Upload 8 files

Browse files

Files changed (9) hide show

.gitattributes +1 -0
2406.09308v1.pdf +3 -0
gen_mat_lit_dataset.py +33 -0
img.png +0 -0
mat_lit_dataset.py +68 -0
simple_dataset.py +62 -0
transNAR.py +125 -0
transNAR2.py +126 -0
transNAR3.py +115 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+2406.09308v1.pdf filter=lfs diff=lfs merge=lfs -text

2406.09308v1.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a60258740c3fe0c93a38c81413b72bcb6ba0c943a7d2e890642b7c05349ee3fa
+size 1228929

gen_mat_lit_dataset.py ADDED Viewed

	@@ -0,0 +1,33 @@

+# Criar o dataset de textos matemáticos
+math_dataset = TransNARTextDataset('math', num_samples=1000, max_length=512, vocab_size=30522, device=device)
+math_dataloader = DataLoader(math_dataset, batch_size=32, shuffle=True)
+# Criar o dataset de textos literários
+lit_dataset = TransNARTextDataset('literature', num_samples=1000, max_length=512, vocab_size=30522, device=device)
+lit_dataloader = DataLoader(lit_dataset, batch_size=32, shuffle=True)
+# Treinar o modelo TransNAR
+for epoch in range(num_epochs):
+    model.train()
+    running_loss = 0.0
+    for (input_ids, attention_masks, labels) in math_dataloader:
+        optimizer.zero_grad()
+        outputs = model(input_ids, attention_masks)
+        loss = criterion(outputs, labels)
+        loss.backward()
+        optimizer.step()
+        running_loss += loss.item() * input_ids.size(0)
+    epoch_loss = running_loss / len(math_dataset)
+    print(f'Epoch {epoch+1}/{num_epochs}, Math Loss: {epoch_loss:.4f}')
+    # Avaliar o modelo no conjunto de dados literário
+    model.eval()
+    val_loss = 0.0
+    for (input_ids, attention_masks, labels) in lit_dataloader:
+        with torch.no_grad():
+            outputs = model(input_ids, attention_masks)
+            loss = criterion(outputs, labels)
+            val_loss += loss.item() * input_ids.size(0)
+    val_loss /= len(lit_dataset)
+    print(f'Epoch {epoch+1}/{num_epochs}, Literature Validation Loss: {val_loss:.4f}')

img.png ADDED Viewed

mat_lit_dataset.py ADDED Viewed

	@@ -0,0 +1,68 @@

+import torch
+from torch.utils.data import Dataset
+from transformers import AutoTokenizer
+class TransNARTextDataset(Dataset):
+    def __init__(self, data_type, num_samples, max_length, vocab_size, device):
+        self.data_type = data_type
+        self.num_samples = num_samples
+        self.max_length = max_length
+        self.vocab_size = vocab_size
+        self.device = device
+        # Carregar o tokenizador pré-treinado
+        if data_type == 'math':
+            self.tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
+        elif data_type == 'literature':
+            self.tokenizer = AutoTokenizer.from_pretrained('distilbert-base-uncased')
+        else:
+            raise ValueError("data_type must be 'math' or 'literature'")
+        # Gerar dados de entrada e labels
+        self.input_ids, self.attention_masks, self.labels = self.generate_data()
+    def __len__(self):
+        return self.num_samples
+    def __getitem__(self, idx):
+        return self.input_ids[idx], self.attention_masks[idx], self.labels[idx]
+    def generate_data(self):
+        input_ids = []
+        attention_masks = []
+        labels = []
+        for _ in range(self.num_samples):
+            if self.data_type == 'math':
+                text = self.generate_math_text()
+            else:
+                text = self.generate_literature_text()
+            # Tokenizar o texto
+            encoded = self.tokenizer.encode_plus(
+                text,
+                max_length=self.max_length,
+                pad_to_max_length=True,
+                return_attention_mask=True,
+                return_tensors='pt',
+            )
+            input_ids.append(encoded['input_ids'])
+            attention_masks.append(encoded['attention_mask'])
+            labels.append(self.generate_label(text))
+        return torch.stack(input_ids).to(self.device), \
+               torch.stack(attention_masks).to(self.device), \
+               torch.stack(labels).to(self.device)
+    def generate_math_text(self):
+        # Gera texto matemático sintético
+        pass
+    def generate_literature_text(self):
+        # Gera texto de literatura sintético
+        pass
+    def generate_label(self, text):
+        # Gera label para o texto
+        pass

simple_dataset.py ADDED Viewed

	@@ -0,0 +1,62 @@

+import torch
+import torch.nn as nn
+import torch.optim as optim
+from torch.utils.data import Dataset, DataLoader
+# Definição do Dataset
+class SimpleDataset(Dataset):
+    def __init__(self, num_samples, seq_length, input_dim):
+        self.num_samples = num_samples
+        self.seq_length = seq_length
+        self.input_dim = input_dim
+        self.data = torch.randn(num_samples, seq_length, input_dim)
+        self.labels = torch.randint(0, 2, (num_samples, seq_length, 50))
+    def __len__(self):
+        return self.num_samples
+    def __getitem__(self, idx):
+        return self.data[idx], self.labels[idx]
+# Definição do modelo (usando TransNAR do exemplo anterior)
+class TransNAR(nn.Module):
+    # ... Definição do modelo como no exemplo anterior ...
+# Inicializar o modelo, critério e otimizador
+input_dim = 100
+output_dim = 50
+embed_dim = 256
+num_heads = 8
+num_layers = 6
+ffn_dim = 1024
+model = TransNAR(input_dim, output_dim, embed_dim, num_heads, num_layers, ffn_dim)
+device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+model = model.to(device)
+criterion = nn.BCEWithLogitsLoss()
+optimizer = optim.Adam(model.parameters(), lr=1e-4)
+# Criar o DataLoader
+num_samples = 1000
+seq_length = 100
+batch_size = 32
+dataset = SimpleDataset(num_samples, seq_length, input_dim)
+dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)
+# Loop de treinamento
+num_epochs = 10
+for epoch in range(num_epochs):
+    model.train()
+    running_loss = 0.0
+    for inputs, labels in dataloader:
+        inputs, labels = inputs.to(device), labels.to(device)
+        optimizer.zero_grad()
+        outputs = model(inputs)
+        loss = criterion(outputs, labels)
+        loss.backward()
+        optimizer.step()
+        running_loss += loss.item() * inputs.size(0)
+    epoch_loss = running_loss / len(dataset)
+    print(f'Epoch {epoch+1}/{num_epochs}, Loss: {epoch_loss:.4f}')

transNAR.py ADDED Viewed

	@@ -0,0 +1,125 @@

+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import math
+class TransNAR(nn.Module):
+    def __init__(self, input_dim, output_dim, embed_dim, num_heads, num_layers, ffn_dim, dropout=0.1):
+        super(TransNAR, self).__init__()
+        # Camada de Embedding
+        self.embedding = nn.Linear(input_dim, embed_dim)
+        self.pos_encoding = PositionalEncoding(embed_dim, dropout)
+        # Camadas Transformer
+        self.transformer_layers = nn.ModuleList([
+            TransformerLayer(embed_dim, num_heads, ffn_dim, dropout)
+            for _ in range(num_layers)
+        ])
+        # Neural Algorithmic Reasoner (NAR)
+        self.nar = NAR(embed_dim)
+        # Decodificador
+        self.decoder = nn.Linear(embed_dim * 2, output_dim)
+        # Camada de normalização final
+        self.final_norm = nn.LayerNorm(output_dim)
+    def forward(self, x):
+        # Embedding e codificação posicional
+        x = self.embedding(x)
+        x = self.pos_encoding(x)
+        # Camadas Transformer
+        for layer in self.transformer_layers:
+            x = layer(x)
+        # Neural Algorithmic Reasoner
+        nar_output = self.nar(x)
+        # Concatenar saída do Transformer e do NAR
+        combined = torch.cat([x, nar_output], dim=-1)
+        # Decodificação
+        output = self.decoder(combined)
+        # Normalização final
+        output = self.final_norm(output)
+        return output
+class TransformerLayer(nn.Module):
+    def __init__(self, embed_dim, num_heads, ffn_dim, dropout=0.1):
+        super(TransformerLayer, self).__init__()
+        self.self_attn = nn.MultiheadAttention(embed_dim, num_heads, dropout=dropout)
+        self.ffn = nn.Sequential(
+            nn.Linear(embed_dim, ffn_dim),
+            nn.ReLU(),
+            nn.Linear(ffn_dim, embed_dim)
+        )
+        self.norm1 = nn.LayerNorm(embed_dim)
+        self.norm2 = nn.LayerNorm(embed_dim)
+        self.dropout = nn.Dropout(dropout)
+    def forward(self, x):
+        # Atenção
+        attn_output, _ = self.self_attn(x, x, x)
+        x = x + self.dropout(attn_output)
+        x = self.norm1(x)
+        # Feedforward
+        ffn_output = self.ffn(x)
+        x = x + self.dropout(ffn_output)
+        x = self.norm2(x)
+        return x
+class NAR(nn.Module):
+    def __init__(self, embed_dim):
+        super(NAR, self).__init__()
+        self.reasoning_layers = nn.Sequential(
+            nn.Linear(embed_dim, embed_dim * 2),
+            nn.ReLU(),
+            nn.Linear(embed_dim * 2, embed_dim),
+            nn.Tanh()
+        )
+        self.gru = nn.GRU(embed_dim, embed_dim, batch_first=True)
+        self.output_layer = nn.Linear(embed_dim, embed_dim)  # Nova camada para ajustar a saída
+    def forward(self, x):
+        reasoned = self.reasoning_layers(x)
+        output, _ = self.gru(reasoned)
+        output = self.output_layer(output)  # Ajustar a dimensão
+        return output
+class PositionalEncoding(nn.Module):
+    def __init__(self, embed_dim, dropout=0.1, max_len=5000):
+        super(PositionalEncoding, self).__init__()
+        self.dropout = nn.Dropout(p=dropout)
+        # Inicializa o tensor de codificação posicional
+        pe = torch.zeros(max_len, embed_dim)
+        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
+        div_term = torch.exp(torch.arange(0, embed_dim, 2).float() * (-math.log(10000.0) / embed_dim))
+        pe[:, 0::2] = torch.sin(position * div_term)
+        pe[:, 1::2] = torch.cos(position * div_term)
+        pe = pe.unsqueeze(0).transpose(0, 1)
+        self.register_buffer('pe', pe)
+    def forward(self, x):
+        x = x + self.pe[:x.size(0), :].to(x.device)
+        return self.dropout(x)
+# Exemplo de uso
+input_dim = 100
+output_dim = 50
+embed_dim = 256
+num_heads = 8
+num_layers = 6
+ffn_dim = 1024
+model = TransNAR(input_dim, output_dim, embed_dim, num_heads, num_layers, ffn_dim)
+input_data = torch.randn(32, 100, input_dim)  # Corrigido para incluir a dimensão de embedding
+output = model(input_data)
+print(output.shape)  # Deve imprimir torch.Size([32, 100, 50])

transNAR2.py ADDED Viewed

	@@ -0,0 +1,126 @@

+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import math
+from torch_geometric.nn import GCNConv
+class TransNAR(nn.Module):
+    def __init__(self, input_dim, output_dim, embed_dim, num_heads, num_layers, ffn_dim, dropout=0.1):
+        super(TransNAR, self).__init__()
+        # Camada de Embedding
+        self.embedding = nn.Linear(input_dim, embed_dim)
+        self.pos_encoding = PositionalEncoding(embed_dim, dropout)
+        # Camadas Transformer
+        self.transformer_layers = nn.ModuleList([
+            TransformerLayer(embed_dim, num_heads, ffn_dim, dropout)
+            for _ in range(num_layers)
+        ])
+        # Neural Algorithmic Reasoner (NAR)
+        self.nar = NAR(embed_dim)
+        # Cross-Attention Layer
+        self.cross_attention = nn.MultiheadAttention(embed_dim, num_heads, dropout=dropout)
+        # Decodificador
+        self.decoder = nn.Linear(embed_dim, output_dim)
+        # Camada de normalização final
+        self.final_norm = nn.LayerNorm(output_dim)
+    def forward(self, x, edge_index, edge_attr):
+        # Embedding e codificação posicional
+        x = self.embedding(x)
+        x = self.pos_encoding(x)
+        # Camadas Transformer
+        for layer in self.transformer_layers:
+            x = layer(x)
+        # Neural Algorithmic Reasoner
+        nar_output = self.nar(x, edge_index, edge_attr)
+        # Cross-Attention between Transformer and NAR outputs
+        cross_attn_output, _ = self.cross_attention(x, nar_output, nar_output)
+        # Decodificação
+        output = self.decoder(cross_attn_output)
+        # Normalização final
+        output = self.final_norm(output)
+        return output
+class TransformerLayer(nn.Module):
+    def __init__(self, embed_dim, num_heads, ffn_dim, dropout=0.1):
+        super(TransformerLayer, self).__init__()
+        self.self_attn = nn.MultiheadAttention(embed_dim, num_heads, dropout=dropout)
+        self.ffn = nn.Sequential(
+            nn.Linear(embed_dim, ffn_dim),
+            nn.ReLU(),
+            nn.Linear(ffn_dim, embed_dim)
+        )
+        self.norm1 = nn.LayerNorm(embed_dim)
+        self.norm2 = nn.LayerNorm(embed_dim)
+        self.dropout = nn.Dropout(dropout)
+    def forward(self, x):
+        # Atenção
+        attn_output, _ = self.self_attn(x, x, x)
+        x = x + self.dropout(attn_output)
+        x = self.norm1(x)
+        # Feedforward
+        ffn_output = self.ffn(x)
+        x = x + self.dropout(ffn_output)
+        x = self.norm2(x)
+        return x
+class NAR(nn.Module):
+    def __init__(self, embed_dim):
+        super(NAR, self).__init__()
+        self.gcn1 = GCNConv(embed_dim, embed_dim * 2)
+        self.gcn2 = GCNConv(embed_dim * 2, embed_dim)
+        self.gru = nn.GRU(embed_dim, embed_dim, batch_first=True)
+    def forward(self, x, edge_index, edge_attr):
+        x = F.relu(self.gcn1(x, edge_index))
+        x = self.gcn2(x, edge_index)
+        output, _ = self.gru(x.unsqueeze(1))
+        return output.squeeze(1)
+class PositionalEncoding(nn.Module):
+    def __init__(self, embed_dim, dropout=0.1, max_len=5000):
+        super(PositionalEncoding, self).__init__()
+        self.dropout = nn.Dropout(p=dropout)
+        # Inicializa o tensor de codificação posicional
+        pe = torch.zeros(max_len, embed_dim)
+        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
+        div_term = torch.exp(torch.arange(0, embed_dim, 2).float() * (-math.log(10000.0) / embed_dim))
+        pe[:, 0::2] = torch.sin(position * div_term)
+        pe[:, 1::2] = torch.cos(position * div_term)
+        pe = pe.unsqueeze(0).transpose(0, 1)
+        self.register_buffer('pe', pe)
+    def forward(self, x):
+        x = x + self.pe[:x.size(0), :].to(x.device)
+        return self.dropout(x)
+# Exemplo de uso
+input_dim = 100
+output_dim = 50
+embed_dim = 256
+num_heads = 8
+num_layers = 6
+ffn_dim = 1024
+model = TransNAR(input_dim, output_dim, embed_dim, num_heads, num_layers, ffn_dim)
+input_data = torch.randn(32, 100, input_dim)
+edge_index = torch.tensor([[0, 1], [1, 0]])  # Example edge index
+edge_attr = torch.randn(edge_index.size(1))  # Example edge attributes
+output = model(input_data, edge_index, edge_attr)
+print(output.shape)  # Deve imprimir torch.Size([32, 100, 50])

transNAR3.py ADDED Viewed

	@@ -0,0 +1,115 @@

+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import math
+from torch_geometric.nn import GCNConv
+class TransNAR(nn.Module):
+    def __init__(self, input_dim, output_dim, embed_dim, num_heads, num_layers, ffn_dim, dropout=0.1):
+        super(TransNAR, self).__init__()
+        # Camada de Embedding
+        self.embedding = nn.Linear(input_dim, embed_dim)
+        self.pos_encoding = PositionalEncoding(embed_dim, dropout)
+        # Inicialização dos pesos
+        self.initialize_weights()
+        # Camadas Transformer
+        self.transformer_layers = nn.ModuleList([
+            TransformerLayer(embed_dim, num_heads, ffn_dim, dropout)
+            for _ in range(num_layers)
+        ])
+        # Neural Algorithmic Reasoner (NAR)
+        self.nar = NAR(embed_dim)
+        # Cross-Attention Layer
+        self.cross_attention = nn.MultiheadAttention(embed_dim, num_heads, dropout=dropout)
+        # Decodificador
+        self.decoder = nn.Linear(embed_dim, output_dim)
+        # Camada de normalização final
+        self.final_norm = nn.LayerNorm(output_dim)
+        # Otimizador
+        self.optimizer = torch.optim.Adam(self.parameters(), lr=1e-3)
+    def initialize_weights(self):
+        # Inicialização de Xavier para camadas lineares
+        for m in self.modules():
+            if isinstance(m, nn.Linear):
+                nn.init.xavier_uniform_(m.weight)
+                nn.init.zeros_(m.bias)
+        # Inicialização normal para camadas de atenção
+        for m in self.modules():
+            if isinstance(m, nn.MultiheadAttention):
+                nn.init.normal_(m.in_proj_weight, std=0.02)
+                nn.init.normal_(m.out_proj.weight, std=0.02)
+    def forward(self, x, edge_index, edge_attr):
+        # Embedding e codificação posicional
+        x = self.embedding(x)
+        x = self.pos_encoding(x)
+        # Camadas Transformer
+        for layer in self.transformer_layers:
+            x = layer(x)
+        # Neural Algorithmic Reasoner
+        nar_output = self.nar(x, edge_index, edge_attr)
+        # Cross-Attention between Transformer and NAR outputs
+        cross_attn_output, _ = self.cross_attention(x, nar_output, nar_output)
+        # Decodificação
+        output = self.decoder(cross_attn_output)
+        # Normalização final
+        output = self.final_norm(output)
+        return output
+    def train_model(self, train_loader, val_loader, num_epochs):
+        for epoch in range(num_epochs):
+            self.train()
+            train_loss = 0
+            for batch in train_loader:
+                self.optimizer.zero_grad()
+                output = self(batch.x, batch.edge_index, batch.edge_attr)
+                loss = F.mse_loss(output, batch.y)
+                loss.backward()
+                self.optimizer.step()
+                train_loss += loss.item()
+            self.eval()
+            val_loss = 0
+            for batch in val_loader:
+                output = self(batch.x, batch.edge_index, batch.edge_attr)
+                loss = F.mse_loss(output, batch.y)
+                val_loss += loss.item()
+            print(f"Epoch {epoch+1}/{num_epochs}, Train Loss: {train_loss/len(train_loader)}, Val Loss: {val_loss/len(val_loader)}")
+            # Salvar checkpoint do modelo
+            torch.save(self.state_dict(), f'transnar_checkpoint_epoch_{epoch+1}.pth')
+# Exemplo de uso
+input_dim = 100
+output_dim = 50
+embed_dim = 256
+num_heads = 8
+num_layers = 6
+ffn_dim = 1024
+model = TransNAR(input_dim, output_dim, embed_dim, num_heads, num_layers, ffn_dim)
+input_data = torch.randn(32, 100, input_dim)
+edge_index = torch.tensor([[0, 1], [1, 0]])  # Example edge index
+edge_attr = torch.randn(edge_index.size(1))  # Example edge attributes
+# Treinamento do modelo
+train_loader = ... # Carregador de dados de treinamento
+val_loader = ... # Carregador de dados de validação
+model.train_model(train_loader, val_loader, num_epochs=100)