Spaces:

909ahmed
/

ERABB

Runtime error

App Files Files Community

909ahmed commited on Jun 22

Commit

4bd0020

•

1 Parent(s): 3d1e7d1

adfadf

Browse files

adsfadf

Files changed (1) hide show

app.py +103 -175

app.py CHANGED Viewed

@@ -1,181 +1,109 @@
 import gradio as gr
-import torch
-import torch.nn as nn
-from torch.nn import functional as F
-n_embd = 64
-dropout = 0.0
-block_size = 32
-vocab_size = 65
-n_head = 4
-n_layer = 4
-class Head(nn.Module):
-    def __init__(self, head_size):
-        super().__init__()
-        self.key = nn.Linear(n_embd, head_size, bias=False)
-        self.query = nn.Linear(n_embd, head_size, bias=False)
-        self.value = nn.Linear(n_embd, head_size, bias=False)
-        self.register_buffer('tril', torch.tril(torch.ones(block_size, block_size)))
-        self.dropout = nn.Dropout(dropout)
-    def forward(self, x):
-        B,T,C = x.shape
-        k = self.key(x)
-        q = self.query(x)
-        wei = q @ k.transpose(-2,-1) * C**-0.5
-        wei = wei.masked_fill(self.tril[:T, :T] == 0, float('-inf'))
-        wei = F.softmax(wei, dim=-1)
-        wei = self.dropout(wei)
-        v = self.value(x)
-        out = wei @ v
-        return out
-class MultiHeadAttention(nn.Module):
-    def __init__(self, num_heads, head_size):
-        super().__init__()
-        self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)])
-        self.proj = nn.Linear(n_embd, n_embd)
-        self.dropout = nn.Dropout(dropout)
-    def forward(self, x):
-        out = torch.cat([h(x) for h in self.heads], dim=-1)
-        out = self.dropout(self.proj(out))
-        return out
-class FeedFoward(nn.Module):
-    def __init__(self, n_embd):
-        super().__init__()
-        self.net = nn.Sequential(
-            nn.Linear(n_embd, 4 * n_embd),
-            nn.ReLU(),
-            nn.Linear(4 * n_embd, n_embd),
-            nn.Dropout(dropout),
-        )
-    def forward(self, x):
-        return self.net(x)
-class Block(nn.Module):
-    def __init__(self, n_embd, n_head):
-        super().__init__()
-        head_size = n_embd // n_head
-        self.sa = MultiHeadAttention(n_head, head_size)
-        self.ffwd = FeedFoward(n_embd)
-        self.ln1 = nn.LayerNorm(n_embd)
-        self.ln2 = nn.LayerNorm(n_embd)
-    def forward(self, x):
-        x = x + self.sa(self.ln1(x))
-        x = x + self.ffwd(self.ln2(x))
-        return x
-class BigramLanguageModel(nn.Module):
     def __init__(self):
-        super().__init__()
-        self.token_embedding_table = nn.Embedding(vocab_size, n_embd)
-        self.position_embedding_table = nn.Embedding(block_size, n_embd)
-        self.blocks = nn.Sequential(*[Block(n_embd, n_head=n_head) for _ in range(n_layer)])
-        self.ln_f = nn.LayerNorm(n_embd)
-        self.lm_head = nn.Linear(n_embd, vocab_size)
-    def forward(self, idx, targets=None):
-        B, T = idx.shape
-        tok_emb = self.token_embedding_table(idx)
-        pos_emb = self.position_embedding_table(torch.arange(T))
-        x = tok_emb + pos_emb
-        x = self.blocks(x)
-        x = self.ln_f(x)
-        logits = self.lm_head(x)
-        if targets is None:
-            loss = None
-        else:
-            B, T, C = logits.shape
-            logits = logits.view(B*T, C)
-            targets = targets.view(B*T)
-            loss = F.cross_entropy(logits, targets)
-        return logits, loss
-    def generate(self, idx, max_new_tokens):
-        for _ in range(max_new_tokens):
-            idx_cond = idx[:, -block_size:]
-            logits, loss = self(idx_cond)
-            logits = logits[:, -1, :]
-            probs = F.softmax(logits, dim=-1)
-            idx_next = torch.multinomial(probs, num_samples=1)
-            idx = torch.cat((idx, idx_next), dim=1)
-        return idx
-chars = "\n !$&',-.3:;?ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"
-itos = { i:ch for i,ch in enumerate(chars) }
-stoi = { ch:i for i,ch in enumerate(chars) }
-decode = lambda l: ''.join([itos[i] for i in l])
-encode = lambda s: [stoi[c] for c in s]
-model = BigramLanguageModel()
-state_model = torch.load("output", map_location=torch.device('cpu'))
-# state_dict = state_model.state_dict()
-model.load_state_dict(state_model, strict=False)
-def respond(
-    message,
-    history: list[tuple[str, str]],
-):
-    messages = [{"role": "system", "content": "Cocaine"}]
-    for val in history:
-        if val[0]:
-            messages.append({"role": "user", "content": val[0]})
-        if val[1]:
-            messages.append({"role": "assistant", "content": val[1]})
-    messages.append({"role": "user", "content": message})
-    response = ""
-    yield response
-    input_txt = encode(message)
-    context = torch.tensor(input_txt).unsqueeze(0)
-    idx = context
-    result = ""
-    for _ in range(500):
-        idx_cond = idx[:, -block_size:]
-        logits, loss = model(idx_cond)
-        logits = logits[:, -1, :]
-        probs = F.softmax(logits, dim=-1)
-        idx_next = torch.multinomial(probs, num_samples=1)
-        idx = torch.cat((idx, idx_next), dim=1)
-        # yield "I need drugs"
-        result += decode(idx_next[0].tolist())
-        yield result
-demo = gr.ChatInterface(
-        respond,
-        title="Sherlock doing meth again?"
-    )
-if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
+import regex as re
+from tqdm import tqdm
+import pickle
+class Tokenizer:
     def __init__(self):
+        self.vocab = {idx : bytes([idx]) for idx in range(256)}
+        self.pattern = r"""'(?i:[sdmt]|ll|ve|re)|[^\r\n\p{L}\p{N}]?+\p{L}+|\p{N}{1,3}| ?[^\s\p{L}\p{N}]++[\r\n]*|\s*[\r\n]|\s+(?!\S)|\s+"""
+        self.merges = {}
+    def merge(self, tokens, target, new_token):
+        new_tokens = []
+        i = 0
+        while i < len(tokens):
+            if i + 1 < len(tokens) and tokens[i] == target[0] and tokens[i + 1] == target[1]:
+                i += 1
+                new_tokens.append(new_token)
+            else:
+                new_tokens.append(tokens[i])
+            i += 1
+        return new_tokens
+    def get_stats(self, idsList):
+        pairs = {}
+        if not isinstance(idsList[0], list):
+            idsList = [idsList]
+        for tokens in idsList:
+            for a, b in zip(tokens, tokens[1:]):
+                if not (a, b) in pairs:
+                    pairs[(a, b)] = 1
+                else:
+                    pairs[(a, b)] += 1
+        return pairs
+    def get_max_pair(self, idsList):
+        pairs = self.get_stats(idsList)
+        return sorted(pairs.items(), key=lambda item : item[1])[-1][0]
+    def get_min(self, idsList):
+        stats = self.get_stats(idsList)
+        pair = min(stats, key=lambda p: self.merges.get(p, float("inf")))
+        return pair
+    def train(self, epochs, text):
+        pat = re.compile(self.pattern)
+        textList = re.findall(pat, text)
+        idsList = [list(text.encode('utf-8')) for text in textList]
+        for epoch in tqdm(range(epochs)):
+            max_pair = self.get_max_pair(idsList)
+            new_token = 256 + epoch
+            self.merges[max_pair] = new_token
+            idsList = [self.merge(tokens, max_pair, new_token) for tokens in idsList]
+            self.vocab[new_token] = self.vocab[max_pair[0]] + self.vocab[max_pair[1]]
+        return [x for xs in idsList for x in xs]
+    def encode(self, text):
+        tokens = list(text.encode('utf-8'))
+        while len(tokens) >= 2:
+            pair = self.get_min(tokens)
+            if pair not in self.merges:
+                break
+            idx = self.merges[pair]
+            tokens = self.merge(tokens, pair, idx)
+        return tokens
+    def decode(self, tokens):
+        tokens = b"".join(self.vocab[token] for token in tokens)
+        text = tokens.decode('utf-8', errors='replace')
+        return text
+title = "Ghalib doing tiktok"
+description = "A simple Gradio interface to infer urdu tokenizer"
+tokenizer = Tokenizer()
+with open('merges.pkl', 'rb') as files:
+    tokenizer.vocab = pickle.load(files)
+with open('vocab.pkl', 'rb') as files:
+    tokenizer.merges = pickle.load(files)
+def inference(text):
+    return tokenizer.encode(text)
+iface = gr.Interface(
+    inference,
+    inputs = ["text"],
+    outputs = ["text"],
+    title = title,
+    description = description,
+)
+iface.launch()