Spaces:

Shilpaj
/

TextTokenization

Running

App Files Files Community

Shilpaj commited on 9 days ago

Commit

7672fa1

verified ·

1 Parent(s): 2cbd601

Feat: Upload project data

Browse files

Files changed (18) hide show

.gitattributes +1 -0
Dockerfile +25 -0
README.md +206 -1
app.py +133 -0
assets/docs/LLMprocess.png +0 -0
byte_pair_encoding.py +298 -0
dataset.txt +11 -0
inference.py +17 -0
requirements.txt +10 -0
samples/sample1.txt +1 -0
samples/sample2.txt +1 -0
samples/sample3.txt +1 -0
static/css/style.css +778 -0
static/favicon.ico +0 -0
static/js/script.js +210 -0
templates/index.html +70 -0
tokenization.ipynb +2020 -0
tokenizer.json +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

Dockerfile ADDED Viewed

	@@ -0,0 +1,25 @@

+FROM python:3.9-slim
+WORKDIR /code
+# Install system dependencies
+RUN apt-get update && apt-get install -y \
+    build-essential \
+    curl \
+    software-properties-common \
+    && rm -rf /var/lib/apt/lists/*
+# Copy requirements first for better caching
+COPY ./requirements.txt /code/requirements.txt
+# Install Python dependencies
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+# Copy the rest of the application
+COPY . /code
+# Expose the port the app runs on
+EXPOSE 7860
+# Command to run the application
+CMD ["python", "app.py"]

README.md CHANGED Viewed

@@ -9,4 +9,209 @@ license: mit
 short_description: Text Tokenization using Byte-Pair Encoding (BPE)
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 short_description: Text Tokenization using Byte-Pair Encoding (BPE)
 ---
+# Tokenization
+While training an LLM, following steps are followed:
+![LLM Training](./assets/docs/LLMprocess.png)
+- After the data collection and preprocessing, the data is tokenized i.e. it is converted into discrete tokens.
+- After tokenization, embeddings are generated by transforming the tokens into numerical vectors for processing by the model.
+- Below are the ways in which the data is represented and why unicode is used for tokenization.
+[toc]
+## ASCII
+ASCII (American Standard Code for Information Interchange) is a character encoding standard that uses 7 bits to represent characters, allowing for 128 unique symbols, including English letters, digits, and control characters. ASCII is limited in its ability to represent characters from other languages, which is why Unicode was developed to cover a broader range of characters.
+## Unicode
+Unicode is a standardized system that defines a set of characters and their corresponding code points, allowing for the representation of text in multiple languages and scripts. As of now, Unicode encompasses roughly 150,000 characters across 161 scripts, including 3,790 emojis, which facilitates the encoding of diverse languages such as Hindi, Korean, and more
+The different versions of UTF (Unicode Transformation Format) represent Unicode characters in binary data. The most common encodings are:
+### UTF-8:
+A variable-length encoding that uses 1 to 4 bytes per character. It is the most widely used encoding on the web and can represent all Unicode characters. The first 128 characters (which correspond to ASCII) are encoded in one byte, while additional characters require more bytes.
+### UTF-16:
+This encoding typically uses 2 bytes for most characters but can use 4 bytes for less common characters. It is often used in environments where memory is less of a concern.
+### UTF-32:
+A fixed-length encoding that uses 4 bytes for every character, making it straightforward but less efficient in terms of space compared to UTF-8 and UTF-16.
+---
+## Tokens
+- There are different ways in which tokens can be created using the data
+- Character-level and word-level tokens are less commonly used in Large Language Models (LLMs) like GPT due to specific limitations that make them less efficient and less effective for most language modeling tasks compared to subword tokenization techniques. Here’s why:
+### 1. Character-Level Tokens
+- **Advantages**:
+  - Simple to implement.
+  - Can handle any input text without encountering "unknown tokens" since every character is part of the vocabulary.
+  - Good for tasks requiring fine-grained control, like poetry or transliteration.
+- **Disadvantages**:
+  - **Longer Sequences**: Representing text character by character results in significantly longer input sequences. For example, the word "language" requires 8 tokens instead of 1 or 2 with subword tokenization. Longer sequences increase computational costs and training time.
+  - **Loss of Semantics**: Characters individually don't carry much semantic meaning, so the model has to work harder to infer relationships and build contextual meaning over long sequences.
+  - **Inefficiency**: LLMs have a fixed input size for each sequence (e.g., 2048 tokens for GPT-3). Using character-level tokens wastes a lot of capacity on redundant or trivial information.
+### 2. Word-Level Tokens
+- **Advantages**:
+  - More semantically meaningful than characters. Each token corresponds to a complete word, reducing sequence length.
+  - Simpler vocabulary compared to subword tokenization.
+- **Disadvantages**:
+  - **Large Vocabulary**: Word-level tokenization leads to a very large vocabulary to cover all possible words in a language, especially for morphologically rich languages. This increases memory requirements and makes the model harder to train.
+  - **Out-of-Vocabulary (OOV) Words**: Unseen words during training cannot be represented, leading to issues with generalization. For example, new words, names, or typos will not be handled well.
+  - **Lack of Subword Information**: The model cannot exploit the shared structure of words (e.g., "run," "runner," "running"). This makes it less effective at generalizing patterns across related words.
+### 3. Why Subword Tokens Work Better
+Subword tokenization techniques, such as Byte Pair Encoding (BPE), WordPiece, or Unigram Language Modeling, provide a middle ground:
+- **Balanced Vocabulary**: The vocabulary size is smaller than word-level tokenization but larger than character-level tokenization.
+- **Handles Rare and OOV Words**: New words or typos can be broken into meaningful subwords, allowing the model to still understand and process them (e.g., "unhappiness" → "un," "happi," "ness").
+- **Efficient Sequence Length**: Subwords reduce sequence length compared to characters, improving computational efficiency without losing much semantic information.
+- **Reusability**: Common prefixes, suffixes, and roots (e.g., "ing," "pre," "ly") are tokenized consistently, which aids in learning and generalization.
+### Summary
+While character-level and word-level tokenization have their use cases, they are not ideal for LLMs due to inefficiency and limitations in vocabulary handling and semantic representation. Subword tokenization strikes the right balance by being computationally efficient, flexible, and effective for generalization.
+---
+## Regex
+- In order to create tokens, regex is used to identify the patterns in the data.
+- Regular expressions (regex) play a key role in subword tokenization processes like Byte Pair Encoding (BPE), WordPiece, and Unigram Language Modeling, as they help define and extract meaningful patterns from text. Here's why regex is commonly used in these processes:
+### 1. Splitting and Preprocessing Text
+Regex is highly efficient for text preprocessing, which is a crucial first step in subword tokenization. It is used to:
+- Normalize Text: Remove special characters, extra spaces, or unwanted symbols.
+- Split Text into Basic Units: Regex can split text into initial units, such as words, whitespace-separated tokens, or even characters, which serve as the foundation for creating subword vocabularies.
+  - Example: Splitting "Hello, world!" into ["Hello", ",", "world", "!"].
+### 2. Identifying Subword Patterns
+Regex allows the tokenization algorithm to recognize subword units based on patterns:
+- Breaking Words into Prefixes, Roots, and Suffixes: Regex can match patterns like "un-", "-ing", "-ly", etc., that are common subword components.
+  - Example: Matching re or ing in "repeating" using regex patterns like \bre or ing\b.
+- Handling Non-Alphanumeric Characters: Regex makes it easy to handle punctuation, symbols, or digits by matching them as separate tokens.
+### 3. Constructing Subword Vocabularies
+During vocabulary construction, regex helps:
+- Counting Subword Frequencies: Regex can efficiently identify and count occurrences of subwords in a corpus, which is essential for frequency-based algorithms like BPE.
+- Finding Merge Candidates: In BPE, regex identifies pairs of adjacent tokens (e.g., lo and ve in love) to determine which pair should be merged into a single token.
+### 4. Tokenizing New Text
+When applying subword tokenization to new text, regex helps in:
+- Matching Known Subword Units: Regex is used to break down words into subwords that exist in the pre-trained vocabulary.
+  - Example: Tokenizing "unhappiness" into ["un", "happi", "ness"] using regex patterns to match vocabulary entries.
+- Handling OOV Cases: Regex can break unknown words into smaller subunits that still make sense semantically or phonetically.
+### 5. Efficiency and Flexibility
+Regex is both:
+- Fast: Regex libraries are optimized for text pattern matching, making them suitable for large-scale tokenization tasks.
+- Flexible: Regex can be easily customized for different languages, tokenization rules, or specific needs (e.g., handling emojis, URLs, or hashtags).
+## Regex for New Language
+- Designing a regex for tokenizing a new language requires careful consideration of linguistic, syntactic, and practical factors.
+- Each language has unique characteristics such as writing systems, grammar rules, and punctuation usage that must be addressed. Below are the key factors to consider:
+### 1. Writing System and Script
+- Character Set: Identify the script used in the language (e.g., Latin, Cyrillic, Devanagari, Arabic, etc.).
+  - Regex should include Unicode ranges for the characters in the language.
+  - Example: For Hindi (Devanagari script), use [\u0900-\u097F] to match characters.
+- Diacritics: Consider combining characters like accents or tone markers.
+  - Example: In French, regex should account for é, è, ê, etc.
+### 2. Word Boundaries
+- Word Separation: Determine how words are separated. Most languages use spaces, but some (e.g., Chinese, Japanese, Thai) do not.
+  - For space-separated languages: \b (word boundary) is useful.
+  - For languages without spaces: Define rules for splitting text based on known word patterns or syllables.
+### 3. Morphology
+- Agglutinative or Inflected Forms: Languages like Turkish or Finnish have long words with multiple morphemes. Regex should consider splitting based on suffixes, prefixes, or infixes.
+  - Example: Use patterns like - or \w+ for handling hyphenated or compound words.
+- Compound Words: German or Dutch often forms compound words. You might need regex to separate components intelligently.
+### 4. Special Characters
+- Punctuation: Define how punctuation marks are handled (e.g., splitting them as separate tokens or keeping them attached to words).
+  - Example: Tokenizing "Hello, world!" might involve a regex like \w+|\S.
+- Numerals: Decide how to tokenize numbers, especially if they include decimal points, commas, or currency symbols.
+  - Example: Use \d+(\.\d+)? to match integers and decimals.
+- Currency, Dates, and Times: Handle specific patterns like $100, 2025-01-05, or 12:30 PM.
+### 5. Language-Specific Rules
+- Elisions and Clitics: Handle contractions or shortened forms.
+  - Example: In French, "l'amour" should be split into ["l'", "amour"].
+  - Regex: \w+|\w+'\w+.
+- Honorifics and Titles: Account for prefixes like "Mr.", "Dr.", or equivalents in other languages.
+### 6. Multilingual Considerations
+- If the language frequently incorporates words or phrases from other languages (e.g., English borrowings in Japanese), the regex should accommodate mixed scripts or transliterations.
+  - Example: Tokenizing "コンピュータcomputer" in Japanese should handle both scripts appropriately.
+### 7. Whitespace and Line Breaks
+- Whitespace Handling: Decide how to treat tabs, newlines, or multiple spaces.
+  - Regex like \s+ can be used to standardize whitespace.
+### 8. Efficiency
+- Avoid overly complex regex patterns that could slow down tokenization for large texts. Break down tasks into smaller regex components if necessary.
+### 9. Non-Alphanumeric Symbols
+- Consider language-specific symbols such as:
+  - Emojis or emoticons.
+  - Logograms or ideograms in Chinese.
+  - Phonetic annotations (e.g., furigana in Japanese).
+---
+## Byte Pair Encoding (BPE) Implementation
+`dataset.txt`: Downloaded from [Link](https://ai4bharat.iitm.ac.in/datasets/sangraha)
+`byte_pair_encoding.py`: Implementation of BPE
+`tokenizer.json`: Saved tokens
+```bash
+Token length: 31617
+Ids length: 2045
+Compression ratio: 15.4606X
+```
+### Usage
+```bash
+$ python byte_pair_encoding.py
+```

app.py ADDED Viewed

	@@ -0,0 +1,133 @@

+#!/usr/bin/env python3
+"""
+FastAPI app to handle data processing for text data.
+Author: Shilpaj Bhalerao
+Date: Oct 29, 2024
+"""
+# Standard imports
+from fastapi import FastAPI, UploadFile, File, HTTPException
+from fastapi.staticfiles import StaticFiles
+from fastapi.templating import Jinja2Templates
+from fastapi.responses import HTMLResponse
+from fastapi import Request
+from pydantic import BaseModel
+import os
+from pathlib import Path
+# Local imports
+from byte_pair_encoding import BPETokenizer
+# Initialize FastAPI app
+app = FastAPI()
+# Mount static files
+app.mount("/static", StaticFiles(directory="static"), name="static")
+# Initialize templates
+templates = Jinja2Templates(directory="templates")
+# Add a request model for text processing
+class TextRequest(BaseModel):
+    text: str
+@app.get("/", response_class=HTMLResponse)
+async def root(request: Request):
+    """Render the main page"""
+    return templates.TemplateResponse("index.html", {"request": request})
+@app.post("/upload")
+async def upload_file(file: UploadFile = File(...)):
+    """Handle file upload"""
+    content_type = file.content_type
+    content = await file.read()
+    try:
+        print(f"Received file: {file.filename}")
+        if content_type.startswith('text'):
+            print("Text file detected")
+            # Convert bytes to string
+            text = content.decode()
+            return {"type": "text", "text": text}
+        else:
+            print("Unsupported file type")
+            raise HTTPException(status_code=400, detail="Unsupported file type. Please upload a text file.")
+    except Exception as e:
+        print(f"Error: {str(e)}")
+        raise HTTPException(status_code=500, detail=str(e))
+@app.post("/process")
+async def process_data(file: UploadFile = File(...)):
+    """Process the uploaded text file by tokenizing it using BPE"""
+    content_type = file.content_type
+    content = await file.read()
+    if content_type.startswith('text'):
+        # Load tokenizer and process text
+        tokenizer = BPETokenizer.load("tokenizer.json")
+        text = content.decode()
+        tokens = tokenizer.encode(text)
+        return {"type": "text", "processed_data": tokens}
+    else:
+        raise HTTPException(status_code=400, detail="Unsupported file type. Please upload a text file.")
+@app.get("/sample/{sample_number}")
+async def get_sample(sample_number: int):
+    """Get sample text file content"""
+    try:
+        sample_path = Path(f"samples/sample{sample_number}.txt")
+        if not sample_path.exists():
+            raise HTTPException(status_code=404, detail="Sample file not found")
+        with open(sample_path, 'r', encoding='utf-8') as f:
+            text = f.read()
+        return {"type": "text", "text": text}
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
+# Add this new route to handle direct text processing
+@app.post("/process_text")
+async def process_text(text_request: TextRequest):
+    """Process text directly without file upload"""
+    try:
+        # Load tokenizer and process text
+        tokenizer = BPETokenizer.load("tokenizer.json")
+        tokens = tokenizer.encode(text_request.text)
+        return {"type": "text", "processed_data": tokens}
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
+# Add this new route to handle token decoding
+@app.post("/decode_text")
+async def decode_text(text_request: TextRequest):
+    """Decode the tokenized text back to original form"""
+    try:
+        # Load tokenizer and decode tokens
+        tokenizer = BPETokenizer.load("tokenizer.json")
+        # Clean and parse the token string
+        token_str = text_request.text.strip('[]').replace(' ', '')  # Remove brackets and spaces
+        if not token_str:
+            raise ValueError("Empty token string")
+        # Split by comma and convert to integers
+        tokens = [int(t) for t in token_str.split(',') if t]
+        decoded_text = tokenizer.decode(tokens)
+        return {"type": "text", "decoded_text": decoded_text}
+    except ValueError as ve:
+        raise HTTPException(status_code=400, detail=f"Invalid token format: {str(ve)}")
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=7860)

assets/docs/LLMprocess.png ADDED Viewed

byte_pair_encoding.py ADDED Viewed

	@@ -0,0 +1,298 @@

+#!/usr/bin/env python3
+"""
+Byte Pair Encoding Tokenizer for Indian Languages
+A simple implementation of BPE tokenizer with Marathi-specific preprocessing.
+Author: Shilpaj Bhalerao
+Date: 2025-01-05
+"""
+# Standard Library Imports
+import re
+# Third Party Imports
+from tqdm import tqdm
+class BPETokenizer:
+    """
+    Byte Pair Encoding Tokenizer
+    :param vocab_size (int): Size of final vocabulary (including base bytes)
+    :param merges (dict): Dictionary of merge rules
+    :param vocab (dict): Dictionary mapping token IDs to their byte sequences
+    :param inverse_vocab (dict): Dictionary mapping byte sequences to token IDs
+    """
+    def __init__(self, vocab_size=1000, use_regex=False):
+        """
+        Initialize the tokenizer with desired vocabulary size.
+        """
+        self.vocab_size = vocab_size
+        self.merges = {}
+        self.len_of_ids = 0
+        self.len_raw_bytes = 0
+        self.vocab = {idx: bytes([idx]) for idx in range(256)}
+        self.inverse_vocab = {bytes([idx]): idx for idx in range(256)}
+        self.use_regex = use_regex
+        # Marathi tokenization regex pattern
+        self.marathi_regex = re.compile(
+            r"([\u0900-\u094F\u0951-\u097F]+|"           # Marathi words and ligatures
+            r"[\u0966-\u096F]+|"                         # Marathi numerals (०-९)
+            r"\d+(?:\s[\u0900-\u097F]+)?|"              # Arabic numerals with Marathi context
+            r"#[\w\u0900-\u097F]+|"                     # Hashtags
+            r"[\w\u0900-\u097F]+[''][\w\u0900-\u097F]+|" # Compound words with apostrophes
+            r"[\w\u0900-\u097F]+(?:-[\w\u0900-\u097F]+)*|" # Hyphenated words
+            r"[\w\u0900-\u097F]+\.[\w\u0900-\u097F]*|"  # Abbreviations
+            r'\"[^\"]+\"|\'[^\']+\'|'                   # Quoted text
+            r"[\u0964\u0965.!?…]|"                      # Marathi punctuation
+            r"[^\s\u0900-\u097F]+)"                     # Non-Marathi symbols
+        )
+    def preprocess(self, text: str) -> str:
+        """
+        Preprocess Marathi text before tokenization.
+        :param text: Input Marathi text
+        :return: Preprocessed text with tokens separated by spaces
+        """
+        # Find all tokens using the Marathi regex
+        tokens = self.marathi_regex.findall(text)
+        # Join tokens with spaces
+        processed_text = ' '.join(tokens)
+        # Normalize whitespace
+        processed_text = ' '.join(processed_text.split())
+        return processed_text
+    def _get_stats(self, ids: list[int]) -> dict[tuple[int, int], int]:
+        """
+        Count frequency of adjacent pairs in sequence.
+        :param ids: list of integers
+        :return: dictionary of pairs and their frequencies
+        """
+        counts = {}
+        for pair in zip(ids, ids[1:]):
+            counts[pair] = counts.get(pair, 0) + 1
+        return counts
+    def _merge(self, ids: list[int], pair: tuple[int, int], idx: int) -> list[int]:
+        """
+        Replace all occurrences of pair with new token idx.
+        :param ids: list of integers
+        :param pair: tuple of integers
+        :param idx: integer
+        :return: list of integers
+        """
+        newids = []
+        i = 0
+        while i < len(ids):
+            if i < len(ids) - 1 and ids[i] == pair[0] and ids[i+1] == pair[1]:
+                newids.append(idx)
+                i += 2
+            else:
+                newids.append(ids[i])
+                i += 1
+        return newids
+    def train(self, text: str):
+        """
+        Train the BPE tokenizer on the given text.
+        :param text: Input text to train on
+        """
+        print("Training BPE tokenizer...")
+        # Preprocess text first
+        if self.use_regex:
+            text = self.preprocess(text)
+        # Convert text to bytes and get initial tokens
+        raw_bytes = text.encode("utf-8")
+        raw_bytes = list(map(int, raw_bytes))  # convert to integers
+        self.len_raw_bytes = len(raw_bytes)
+        # Calculate number of merges needed
+        num_merges = self.vocab_size - 256
+        ids = list(raw_bytes)  # copy so we don't destroy the original list
+        # Perform merges
+        for i in tqdm(range(num_merges)):
+            stats = self._get_stats(ids)
+            if not stats:
+                break
+            # Find most frequent pair
+            pair = max(stats, key=stats.get)
+            idx = 256 + i
+            # Perform the merge
+            ids = self._merge(ids, pair, idx)
+            self.len_of_ids = len(ids)
+            self.merges[pair] = idx
+            # Update vocabulary
+            new_token = self.vocab[pair[0]] + self.vocab[pair[1]]
+            self.vocab[idx] = new_token
+            self.inverse_vocab[new_token] = idx
+    def encode(self, text: str) -> list[int]:
+        """
+        Encode text into token IDs.
+        :param text: Text to encode
+        :return: List of token IDs
+        """
+        # Preprocess if needed
+        if self.use_regex:
+            text = self.preprocess(text)
+        # Convert text to list of integers
+        tokens = list(text.encode("utf-8"))
+        while len(tokens) >= 2:
+            stats = self._get_stats(tokens)
+            pair = min(stats, key=lambda p: self.merges.get(p, float("inf")))
+            if pair not in self.merges:
+                break # nothing else can be merged
+            idx = self.merges[pair]
+            tokens = self._merge(tokens, pair, idx)
+        return tokens
+    def decode(self, ids: list[int]) -> str:
+        """
+        Decode token IDs back to text.
+        :param ids: List of token IDs
+        :return: Decoded text
+        """
+        tokens = b"".join(self.vocab[idx] for idx in ids)
+        return tokens.decode("utf-8", errors="replace")
+    def token_to_text(self, token_id: int) -> str:
+        """
+        Convert a single token ID to its text representation.
+        :param token_id: Token ID
+        :return: Text representation of the token
+        """
+        return self.vocab[token_id].decode("utf-8", errors="replace")
+    def save(self, path: str):
+        """
+        Save tokenizer state to file.
+        :param path: Path to save the file
+        """
+        import json
+        state = {
+            'vocab_size': self.vocab_size,
+            'merges': list(self.merges.items()),  # Convert to list of tuples
+            'vocab': {k: list(v) for k, v in self.vocab.items()}  # Convert bytes to lists
+        }
+        with open(path, 'w') as f:
+            json.dump(state, f)
+    @classmethod
+    def load(cls, path: str):
+        """
+        Load tokenizer state from file.
+        :param path: Path to load the file
+        :return: Loaded tokenizer
+        """
+        import json
+        with open(path, 'r') as f:
+            state = json.load(f)
+        tokenizer = cls(vocab_size=state['vocab_size'])
+        # Convert lists back to tuples for the merge pairs
+        tokenizer.merges = {tuple(k): v for k, v in state['merges']}
+        tokenizer.vocab = {int(k): bytes(v) for k, v in state['vocab'].items()}
+        tokenizer.inverse_vocab = {v: k for k, v in tokenizer.vocab.items()}
+        return tokenizer
+    def get_vocab_size(self) -> int:
+        """
+        Get the size of the vocabulary.
+        :return: Size of the vocabulary
+        """
+        return len(self.vocab)
+    def get_compression_ratio(self, text: str) -> float:
+        """
+        Get the compression ratio of the text.
+        :param text: Input text
+        :return: Compression ratio (original_length / encoded_length)
+        """
+        # Preprocess if needed
+        if self.use_regex:
+            text = self.preprocess(text)
+        return round(self.len_raw_bytes / self.len_of_ids, 4)
+    def get_token_length(self, text: str) -> int:
+        """
+        Get the length of the tokenized text.
+        :param text: Input text
+        :return: Length of the tokenized text
+        """
+        return self.len_raw_bytes
+    def get_ids_length(self, text: str) -> int:
+        """
+        Get the length of the tokenized text.
+        :param text: Input text
+        :return: Length of the tokenized text
+        """
+        return self.len_of_ids
+    def is_encoded_equals_decoded(self, text: str) -> bool:
+        """
+        Check if encoding and decoding are consistent.
+        :param text: Input text
+        :return: True if consistent, False otherwise
+        """
+        encoded = self.encode(text)
+        decoded = self.decode(encoded)
+        return text == decoded
+if __name__ == "__main__":
+    # Read text from file
+    with open("dataset.txt", "r") as file:
+        text = file.read()
+    # Initialize and train
+    tokenizer = BPETokenizer(vocab_size=3000)
+    tokenizer.train(text)
+    # Save and load
+    tokenizer.save("tokenizer.json")
+    loaded_tokenizer = BPETokenizer.load("tokenizer.json")
+    # Encode and decode
+    encoded = tokenizer.encode("या पुतळ्याच्या डोक्यावर अज्ञातांनी चप्पल ठेवल्याचे आढळून आले आहे.")
+    decoded = loaded_tokenizer.decode(encoded)
+    # Check consistency
+    print("Is encoded equals to loaded decoded? ", decoded == "या पुतळ्याच्या डोक्यावर अज्ञातांनी चप्पल ठेवल्याचे आढळून आले आहे.")
+    # Print vocab size
+    print(f"Vocab size: {tokenizer.get_vocab_size()}")
+    # Print token length
+    print(f"Token length: {tokenizer.get_token_length(text)}")
+    # Print ids length
+    print(f"Ids length: {tokenizer.get_ids_length(text)}")
+    # Print compression ratio
+    print(f"Compression ratio: {tokenizer.get_compression_ratio(text)}X")

dataset.txt ADDED Viewed

	@@ -0,0 +1,11 @@

+बहुचर्चित एचएएल एम्प्लॉईज सहकारी सोसायटीच्या २००१ ते २०११ या कालावधीत लेखा परीक्षण करताना कसूर केल्याच्या कारणावरून सहकार विभागाने लेखा परीक्षकांना कारणे दाखवा नोटीस बजावली आहे. या संदर्भात सोसायटीच्या सभासदांनी तीन वार्षिक सर्वसाधारण सभांत ठराव मंजूर करून लेखा परीक्षकांवर गुन्हे दाखल करण्याची मागणी सहकार खात्याकडे केली होती. एचएएल सोसायटीत २००१ ते २०१२ या काळात कोटय़वधी रुपयांचा गैरव्यवहार झाल्याचे निष्पन्न झाले आहे. या कार्यकाळात लेखा परीक्षकांनी कायद्याप्रमाणे लेखा परीक्षण करून वेळीच कारवाई केली असती तर भ्रष्टाचार झाला नसता आणि सोसायटी वाचली असती, असे सभासदांचे म्हणणे आहे. सभासदांनी लेखा परीक्षकांवर गुन्हे दाखल करण्याच्या केलेल्या ठरावाची अंमलबजावणी करावी यासाठी एचएएल सोसायटी नवनिर्माण कृती समितीचे समन्वयक प्रवीण तिदमे यांच्या नेतृत्वाखाली नोव्हेंबर महिन्यात जिल्हा उपनिबंधक कार्यालयासमोर उपोषणही केले होते. त्यानंतर जिल्हा विशेष लेखा परीक्षक वर्ग १ सहकारी संस्था यांनी लेखा परीक्षण अहवालाची छाननी केली. त्या पाश्र्वभूमीवर, तुषार बाजीराव पगार (नाशिक), डी. एम. बारस्कर (अहमदनगर), जयंत व्ही. कोळपकर अॅण्ड कंपनी (पुणे), बिपीन जैन (धुळे), सतीष बन्सीलाल संघवी (नाशिक) आणि एस. आर. करवा अॅण्ड कंपनी (नाशिकरोड) यांना कारणे दाखवा नोटिसा बजावल्या आहेत. याची माहिती कृती समितीने दिली. संबंधितांना पाठविलेल्या नोटिसीत लेखा परीक्षण छाननी अहवालात समोर आलेल्या गंभीर मुद्दय़ांचा उल्लेख सहकार विभागाने केला आहे. संचालक मंडळाने २००६ ते ११ या कालावधीत २६.२५ कोटी रुपयांची रक्कम पूर्वपरवानगी न घेता बँक ऑफ महाराष्ट्रमध्ये केलेल्या मुदतठेव गुंतवणुकीत १७ कोटींची अफरातफर व गैरव्यवहाराच्या आक्षेपावर लेखा परीक्षकांनी त्यांच्या अहवाल वर्षांत गुंतवणूक वा मुदत ठेव नूतनीकरणाबाबत कोणतेही शेरे नमूद नाहीत. २११.०१ लाख भागभांडवल परत केले. मात्र भागमूल्यांकनानुसार रक्कम परत करण्याबाबत शेरे नमूद नाहीत, लेखा परीक्षकांनी लेखा परीक्षणावेळी योग्यरीत्या तपासणी करून गुंतवणुकीची खात्री केली नाही, लेखा परीक्षणात तेरीजपत्रक जोडले नसल्याने किती भागभांडवल परत केले आहे याची रक्कम नमूद करता येत नाही अशा विविध बाबी नोटिसीत नमूद करण्यात आल्या आहेत. जिल्हा उपनिबंधकांनी लेखा परीक्षकांना नोटीस बजावत कारवाई सुरू केल्यामुळे सभासदांनी तिचे स्वागत केले आहे. पाच हजार कुटुंबांचा आर्थिक आधार असणारी सोसायटी पुनरुजीवित होईपर्यंत आमचा लढा सुरू राहणार असल्याचे सोसायटी नवनिर्माण कृती समितीने म्हटले आहे.
+ट्युनिस : उत्तर आफ्रिकेतील ट्युनिशिया देशाची राजधानी. लोकसंख्या ६,८५,००० (१९६६). प्राचीन कार्थेजपासून सु.१५ किमी., भूमध्य समुद्राकाठी मोक्याच्या जागी, काहीशा उंच संयोगभूमीवर वसलेले हे शहर सु. १० किमी.वरील हल्क-अल् वाडी (ला गूलेट) या त्याच्या बंदराशी ७ मी. खोल खाडीने जोडलेले आहे. येथील हवामान भूमध्यसामुद्री असून वार्षिक सरासरी तपमान व पर्जन्य अनुक्रमे १७·७° से. व ३७·५ सेंमी. आहे. जुने ट्युनिस कसबा किल्ल्यापासून टेकडीच्या उतारावर वसले असून मदीना हा त्याचा मुख्य भाग आहे. आधुनिक ट्युनिस टेकडी व ट्युनिस सरोवर यांमधील सखल भागावर वसले आहे. येथे प्रशस्त रस्ते, हवेशीर घरे, उंच इमारती व आधुनिक सुखसोयी आहेत. जुन्या भागात अरुंद बोळ, एकमजली बिनखिडक्यांची चौकोनी घरे, 'सुक' नावाचे छपरबंद बाजार, अझ झैतूनासारख्या प्राचीन मशिदी, जुने मुस्लिम विद्यापीठ इ. आहेत. रोमन वास्तुशैलीची स्नानगृहे प्रसिद्ध आहेत. लोकवस्ती फ्रेंच, इटालियन आणि मुस्लिम अशी संमिश्र आहे. ट्युनिसभोवती ऑलिव्ह व इतर भूमध्यसामुद्री फळे व धान्ये पिकतात. गावात पीठगिरण्या, साबण, ऑलिव्ह तेल, फळे डबाबंद करणे, टिकविणे, व सुकविणे, मद्ये, कापड, गालिचे, सिमेंट, बांधकाम साहित्य, धातुशुद्धी, सुपरफॉस्फेटसारखे रासायनिक पदार्थ, खाणीसाठी स्फोटके, यंत्रे, अत्तरे, पादत्राणे, विणलेले कपडे, रेल्वे कर्मशाळा, वीजउद्योग, औष्णिक वीजकेंद्रे इ. कारखाने व उद्योग आहेत. ट्युनिसहून फॉस्फेट, लोहधातुके, फळे, खजूर, ऑलिव्ह तेल, कागदासाठी एस्पार्टो गवत, स्पंज, स्थानिक गालिचे, मातीची भांडी इ. निर्यात होतात. येथे आंतरराष्ट्रीय विमानतळ असून, हे देशातील व शेजारी देशांतील शहरांशी लोहमार्गांनी व सडकांनी जोडलेले आहे. दवाखाने, रुग्णालये, सांस्कृतिक केंद्रे, शाळा, ट्युनिस विद्यापीठ (१९१६), नगरपालिका इ. सोयी आहेत. येथील पर्यटन व्यवसाय वाढत आहे.
+एखाद्याची अक्कल काढायची असल्यास, त्याची अक्कल घुटण्यात आहे काय? एखाद्याची अक्कल काढायची असल्यास, त्याची अक्कल घु��ण्यात आहे काय? असा शब्दप्रयोग सर्रास केला जातो किंवा कुणाला शरणागती पत्करण्यास भाग पाडले तरी 'त्याला गुडघे टेकायला लावले', असे आम्ही मोठ्या अभिमानाने सांगत असतो. तर असा हा 'घुटणा' म्हणजेच गुडघा मानवी शरीरातील अत्यंत महत्त्वाचा भाग. गुडघा निकामी झाला की माणसाचे चालणेच थांबते. अशा वेळी मग कृत्रिम गुडघा बसविण्याशिवाय दुसरा पर्याय त्याच्याकडे नसतो. एरवी या गुडघ्याच्या प्रत्यारोपणाचा अवाढव्य खर्च आणि रुग्णांची होणारी लुटमार बघितली की मग कुणाच्याही घुटण्यात आल्याशिवाय राहत नाही. मात्र यापुढे तशी गरज पडणार नाही. कारण केंद्र शासनाने आता गुडघे प्रत्यारोपण शस्त्रक्रियेसाठीच्या दरांवर नियंत्रण आणण्याचा निर्णय घेतला आहे. त्यामुळे या शस्त्रक्रियेवरील खर्च जवळपास ७० टक्क्यांनी कमी होण्याची शक्यता असून, समस्त गुडघाग्रस्तांसाठी ही आनंदाची वार्ता आहे. राष्टÑीय औषध दर नियंत्रण प्राधिकरणाने (एनपीपीए) गुडघ्यांच्या शस्त्रक्रियेमध्ये रुग्णांची होणारी लुबाडणूक थांबविण्याकरिता रुग्णालये, वितरक तसेच आयातदारांच्या नफेखोरीचे आकडे गेल्या आठवड्यात उघडकीस आणले होते. या शस्त्रक्रियेत तब्बल ३०० टक्क्यांहून अधिक नफा कमावला जात असल्याचे एनपीपीएने लक्षात आणून दिले आहे. मुख्य म्हणजे पंतप्रधान नरेंद्र मोदी यांनी स्वातंत्र्यदिनाच्या आपल्या भाषणात हृदयरुग्णांसाठीच्या स्टेंटस्प्रमाणे गुडघा प्रत्यारोपण शस्त्रक्रिया स्वस्त करण्याचा मुद्दा मांडला होता. त्यानंतर हालचालींना वेग आला. हा निर्णय निश्चितच स्वागतार्ह आणि रुग्णांना मोठा दिलासा देणारा आहे. अपघात, बदलती जीवनशैली, व्यायामाचा अभाव आदी कारणांमुळे आज अस्थिरोग आणि प्रामुख्याने गुडघ्यांचे आजार प्रचंड वाढले आहेत. देशात आजमितीस दीड ते दोन कोटी लोकांना गुडघा प्रत्यारोपणाची गरज आहे. परंतु केवळ सव्वा ते दीड लाखच शस्त्रक्रिया होत असतात. कारण यासाठी चार ते पाच लाख रुपये खर्च येत असल्याने अनेकदा रुग्णांना ते आर्थिकदृष्ट्या परवडत नसते. परंतु आता किमती घसरल्याने ते शक्य होणार आहे. केंद्र शासनाने यावर्षीच्या प्रारंभी नवे आरोग्य धोरण जाहीर केले होते. या धोरणात ज्या महत्त्वाच्या पैलूंवर लक्ष केंद्रित करण्यात आले त्यात जनतेला आरोग्यसेवेवर कराव्या लागणाºया खर्चात कपात प्रमुख हो���ी. त्यादिशेने वाटचाल सुरू झाली आहे, असे समजण्यास हरकत नाही.
+नागपूरः राज्याचे विद्यमान अन्न व औषधी प्रशासन मंत्री संजय राठोड हे भाजप-शिवसेना सरकारमध्ये महसूल राज्यमंत्री असताना त्यांनी वाशिम जिल्ह्यातील कारंजा लाड येथील गायरानाची २५ कोटी रुपये किमतीची तब्बल १० एकर जमीन दोन व्यक्तींना वाटप केल्याचे नवे प्रकरण समोर आले. तत्कालीन जिल्हाधिकारी लक्ष्मीनारायण मिश्रा यांनी या जमिनीच्या प्रकरणात बनावट कागदपत्रे सादर करणाऱ्या व्यक्तींविरुद्ध फौजदारी गुन्हे दाखल करावेत आणि ही जमीन सरकारजमा करावी असे सुस्पष्ट आदेश दिले होते; पण ते डावलून राठोड यांनी काळी कारंजामधील पाच एकर जमीन ही युनूस अय्युब अन्सारी यांना, तर पाच एकर जमीन ही रोहित राधेश्याम लाहोटी यांना दिली. दोन्ही आदेश त्यांनी एकाच दिवशी म्हणजे ७ ऑगस्ट २०१९ रोजी पारित केले. 'लोकमत'ने मंगळवारी सावरगावची ५ एकर जमीन खासगी व्यक्तीच्या नावे केल्याचे प्रकरण उघडकीस आणले. या प्रकरणावर संजय राठोड यांचे दोन्ही मोबाइल स्विच ऑफ होते. मंत्रिमहोदयांची प्रकृती बरी नसल्याचे त्यांचे स्वीय सचिव म्हणाले. - बेकायदा जमीन वाटपप्रकरणी सोमवारी कामकाज रोखून धरणाऱ्या विरोधकांनी मंगळवारी मात्र या मुद्द्यावर मौन बाळगल्याने आश्चर्य व्यक्त केले जात आहे. - कृषिमंत्री अब्दुल सत्तार सभागृहात असूनही विरोधी पक्षाने त्यांच्या राजीनाम्याच्या मागणीला स्पर्श केला नाही. सत्तापक्ष आणि विरोधक यांच्यात या विषयावर काही समझौता तर झाला नाही ना, अशी चर्चाही विधानभवन परिसरात रंगली होती. सर्व ठळक बातम्यांसाठी जरूर वाचा महाराष्ट्रातील अव्वल मराठी वेबसाईट "लोकमत डॉट कॉम"
+सोलापूर : निर्यातक्षम केळी तोडणे, ती व्यवस्थित ठेवणे आणि कंटेनरमध्ये भरणे आदी कामांमध्ये पश्चिम बंगालच्या मजुरांचे कौशल्य असून कोरोना साथीमुळे गावी गेलेल्या या मजुरांना जिल्ह्यात परत येण्यासाठी परवानगी द्यावी, अशी मागणी करमाळा येथील केळी निर्यातदारांनी केली आहे. हे कामगार राज्यात परत गेल्याने स्थानिक कामगारांना हे काम देण्यात आले; पण त्यांच्याकडून निर्यातक्षम प्रत राखण्यात अडचणी येत असल्याची कैफियत या निर्यातदारांनी व्हिडिओ कॉन्फरन्सद्वारे जिल्हाधिकाºयापुढे मांडली आहे. कोरोनाचा प्रादुर्भाव सुरू झाल्यानंतर करमाळा त��लुक्यातील कंदर, माळशिरस व माढा तालुक्यातील परराज्यातील कामगार रेल्वेची सुविधा उपलब्ध झाल्यानंतर आपल्या राज्यात परत गेले आहेत. परंतु कोरोना प्रादुर्भावाच्या सुरुवातीच्या टप्प्यामध्ये सोलापूरमधून अफगाणिस्थान, इराण, ओमान, सौदीअरेबिया व नेदरलॅण्ड या देशांमध्ये ५३८ मे. टनपर्यंत केळीची निर्यात झालेली आहे. परराज्यातील कामगार स्थलांतरित झाल्यानंतर स्थानिक कामगारांना निर्यात साखळीमध्ये घेऊन काम पुढे सुरू ठेवण्याचा प्रयत्न स्थानिक निर्यातदारांनी केलेला आहे. पण स्थानिक कामगारांकडून निर्यातक्षम प्रत राखण्यात अडचणी येत असल्याने निर्यातीवर परिणाम होत असल्याची तक्रार निर्यातदारांनी केली आहे. या पार्श्वभूमीवर जिल्हाधिकारी मिलिंद शंभरकर यांनी केळी निर्यातदारांशी व्हिडिओ कॉन्फरन्सद्वारे चर्चा केली. यामध्ये अजहर पठाण, अजित ओतारी, नीलेश काळे, किरण डोके, विष्णू पोळ या प्रतिनिधींनी भाग घेतला. निर्यातीमध्ये केळी काढणीपासून ते कंटेनरमध्ये भरेपर्यंत शक्यतो पश्चिम बंगालमधील कामगारांमार्फत सर्व प्रक्रिया पूर्ण केली जात होती. यामध्ये केळी झाडावरून उतरविणे, ती साफ करणे, केळीच्या फण्या वेगळ्या करणे, डंपिंग करणे, परत स्वच्छ करणे व हवाबंद प्लास्टिक बॅगमध्ये पॅक करून ती कर्टन बॉक्समध्ये ठेवणे व कंटेनरमध्ये भरणे अशी संपूर्ण प्रक्रिया करण्यास त्यांना दीड रुपया प्रति किलो मजुरी दिली जाते. हे कामगार दरवर्षी सणांदरम्यान मूळगावी परतात. त्यांच्या एका समूहामध्ये २० लोक असतात. प्रतिकिलोप्रमाणे मजुरी असल्याने पहाटेपासून केळीचे घड उतरविण्यापासून ते कंटेनरमध्ये भरण्यापर्यंत काम करण्याची त्यांची तयारी असते. पण स्थानिक कामगारांना वेळेचे बंधन व अंगावर घेऊन काम करण्याची तयारी नसल्याची अडचण होत असल्याच्या तक्रारी मांडल्या. त्यामुळे पश्चिम बंगालमधील कर्मचाºयांना परत बोलावण्यास परवानगी द्यावी, अशी मागणी केली. स्थानिक कामगार केळी निर्यात साखळीमध्ये काम करण्यास अकुशल आहेत. त्यांच्या कामाचे तास सकाळी १० ते सायंकाळी ६ पर्यंतच आहे. त्यांना प्रशिक्षित केल्यानंतर इतर निर्यातदारांकडे कामासाठी जाण्याचे प्रमाण जास्त आहे. प्रति किलोमागे मजुरी दरामध्ये वाढ करावी, अशी अपेक्षा असल्याने उत्पादन खर्चात वाढ होत आहे. कोरोना प्रादुर्भा��ामुळे पुणे-मुंबईसारख्या शहरातील परत आलेले कामगार या साखळीत काम करीत आहेत. कोरोना प्रादुर्भाव संपल्यानंतर पश्चिम बंगालचे कामगार कामावर येण्याची शक्यता आहे. स्थानिक कामगारांमार्फत निर्यातक्षम केळीची प्रत निर्यात साखळीमध्ये राखली जात नाही, असे व्यापाºयांचे म्हणणे आहे. जिल्ह्यातील केळी लागवडीच्या पट्ट्यामध्ये प्रगतिशील शेतकºयांच्या माध्यमातून स्थानिक कामगारांना प्रशिक्षित करण्याचे नियोजन आहे. सध्या परराज्याच्या कामगारांना परत केळी निर्यात पट्ट्यामध्ये आणून त्यांच्या समूहामध्ये स्थानिक कामगारांचा समावेश करण्यात येणार आहे. - रवींद्र माने,
+महाराष्ट्र विधानसभा निवडणुकीसाठी (Maharashtra Assembly Election) येत्या 21 ऑक्टोबर रोजी सार्वजनिक व खाजगी क्षेत्रातील सर्व कंपन्यांच्या सर्व कर्मचाऱ्यांना सुट्टी जाहीर करण्यात आली आहे. राज्यात मतदानाचा टक्का वाढवण्यासाठी हा नियम असून त्यानुसार मिळणारी ही सुट्टी भरपगारी देण्यात येणार आहे. अगदीच अपवादात्मक स्थितीत जर का एखाद्या कंपनीला पूर्ण दिवसाची सुट्टी देणे शक्य नसेल तर संबंधित जिल्हाधिकाऱ्यांच्या परवानगीने मतदानासाठी कर्मचाऱ्यांना निदान दोन ते तीन तासांची भरपगारी सवलत देणे बंधनकारक असणार आहे. मात्र जर का एखादी कंपनी कर्मचाऱ्यांना सुट्टी किंवा सवलत देत नसेल तर मतदारांना जिल्हा कामगार अधिकाऱ्यांकडे थेट तक्रार नोंदविता येणार आहे. प्राप्त माहितीनुसार, मतदानाच्या दिवशी दरवेळेस राज्य आणि केंद्र सरकारची कार्यालये, निमशासकीय कार्यालये, महामंडळ ऑफिस, सार्वजनिक उपक्रम, बॅंका कामकाजासाठी बंद ठेवण्यात येतात. यानुसार मतदाराला मतदान वेळेत कधीही जाऊन आपले मत नोंदवता यावे यासाठी ही तरतूद आहे. मात्र जर का कंपनीने सुट्टी किंवा सवलत नाकारली तर साहजिकच पगार कापला जाईल या चिंतेने मतदान करणे टाळले जाईल. असे होऊ नये याकरिता संबंधित बाबतीत तक्रार आल्यास त्या कंपनीवर कायदेशीर कारवाई करण्यात येणार असल्याचे समजत आहे. मतदानाच्या दिवशी सुट्टी वा सवलतीबाबत तक्रार करायची झाल्यास, आपण प्रमुख सुविधाकार, बृहन्मुंबई महानगरपालिका व त्यांच्या अधिपत्याखालील महानगरपालिकेतील प्रभागनिहाय कार्यालय, राज्याचे कामगार आयुक्त कार्यालय, कामगार भवन, याठिकाणी संपर्क साधू शकता. याबाबत कामगार आयुक्त���ंनी पुष्टी केली आहे. महाराष्ट्र विधानसभा निवडणूक 2019: PwD App च्या मदतीने दिव्यांग मतदार घरबसल्या करू शकतील मतदार नोंदणी ते व्हिलचेअरसाठी विनंती. दरम्यान, 21 ऑक्टोबर रोजी घेण्यात येणाऱ्या निवडणुकीत मतदानाचा टक्का वाढावा याकरिता विविध जनजागृती कार्यक्रम, व शिबिरांच्या माध्यमातून जनतेला आवाहन करण्यात आले होते, याचे परिणाम मतदानाच्या दिवशीच समोर येतील.

inference.py ADDED Viewed

	@@ -0,0 +1,17 @@

+#!/usr/bin/env python3
+"""
+Script to show tokens of the input text
+"""
+# Local Imports
+from byte_pair_encoding import BPETokenizer
+if __name__ == "__main__":
+    tokenizer = BPETokenizer.load("tokenizer.json")
+    text = "या पुतळ्याच्या डोक्यावर अज्ञातांनी चप्पल ठेवल्याचे आढळून आले आहे."
+    # text = "સરળ ગુજરાતી બી પી ઇ ટોકનાઇઝર"
+    encoded = tokenizer.encode(text)
+    print(encoded)
+    print(tokenizer.decode(encoded))

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+flask
+numpy
+transformers
+torch
+gradio
+tqdm
+fastapi
+uvicorn
+python-multipart
+jinja2

samples/sample1.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ मी आज सकाळी लवकर उठलो आणि बागेत फिरायला गेलो. सूर्य उगवत होता आणि पक्षी गात होते.

samples/sample2.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ माझ्या आजीने मला एक गोष्ट सांगितली: "जीवनात प्रामाणिक राहा, मेहनत करा आणि दुसऱ्यांना मदत करा."

samples/sample3.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ मुंबई ही महाराष्ट्राची आर्थिक राजधानी आहे. इथे अनेक उद्योग, कंपन्या आणि चित्रपट उद्योग आहे.

static/css/style.css ADDED Viewed

	@@ -0,0 +1,778 @@

+/* Move these keyframes to the top */
+@keyframes gradientBG {
+    0% { background-position: 0% 50%; }
+    50% { background-position: 100% 50%; }
+    100% { background-position: 0% 50%; }
+}
+@keyframes animate {
+    0% { background-position: 0% 50%; }
+    100% { background-position: 200% 50%; }
+}
+/* Reset and base styles */
+* {
+    margin: 0;
+    padding: 0;
+    box-sizing: border-box;
+}
+/* Important: Set background color immediately on html */
+html {
+    background: #000428;
+}
+/* Body styles with gradient */
+body {
+    margin: 0;
+    padding: 20px;
+    min-height: 100vh;
+    width: 100%;
+    background: linear-gradient(-45deg, #000428, #004e92, #000428, #002454);
+    background-size: 400% 400%;
+    animation: gradientBG 15s ease infinite;
+    display: flex;
+    justify-content: center;
+    align-items: center;
+    color: white;
+}
+/* Add a mesh overlay */
+body::before {
+    content: '';
+    position: fixed;
+    top: 0;
+    left: 0;
+    width: 100%;
+    height: 100%;
+    background-image:
+        linear-gradient(rgba(255,255,255,.05) 1px, transparent 1px),
+        linear-gradient(90deg, rgba(255,255,255,.05) 1px, transparent 1px);
+    background-size: 20px 20px;
+    pointer-events: none;
+    z-index: 1;
+}
+.container {
+    position: relative;
+    z-index: 2;
+    width: 90%;
+    min-width: 320px;
+    max-width: 1400px;
+    margin: 40px auto;
+    padding: 40px;
+    font-family: Arial, sans-serif;
+    background: rgba(10, 12, 25, 0.85);
+    backdrop-filter: blur(10px);
+    -webkit-backdrop-filter: blur(10px);
+    border-radius: 20px;
+    box-shadow: 0 8px 32px 0 rgba(0, 0, 0, 0.5);
+    display: flex;
+    flex-direction: column;
+    min-height: 85vh;
+}
+.btn {
+    background: linear-gradient(90deg, #4A00E0, #8E2DE2);
+    border: none;
+    color: white;
+    padding: 12px 30px;
+    border-radius: 50px;
+    font-family: 'Space Grotesk', sans-serif;
+    font-size: 1rem;
+    font-weight: 600;
+    margin: 1rem 0;
+    box-shadow: 0 4px 15px rgba(74, 0, 224, 0.3);
+    cursor: pointer;
+    transition: all 0.3s ease;
+    display: inline-block;
+}
+.btn:hover {
+    background: linear-gradient(90deg, #8E2DE2, #4A00E0);
+    transform: translateY(-2px);
+    box-shadow: 0 6px 20px rgba(74, 0, 224, 0.4);
+}
+.btn:active {
+    transform: translateY(1px);
+}
+.text-box {
+    border: 1px solid #ccc;
+    padding: 15px;
+    margin: 10px 0;
+    min-height: 150px;
+    max-height: 400px;
+    overflow-y: auto;
+    white-space: pre-wrap;
+    background-color: #f8f9fa;
+    border-radius: 5px;
+    background: rgba(15, 15, 25, 0.7);
+    backdrop-filter: blur(5px);
+    border: 1px solid rgba(255, 255, 255, 0.15);
+    color: #ffffff;
+    font-size: 1.1rem;
+    line-height: 1.6;
+    letter-spacing: 0.2px;
+    text-shadow: 0 1px 2px rgba(0, 0, 0, 0.3);
+    width: 100%;
+}
+.hidden {
+    display: none;
+}
+h1, h2 {
+    color: white;
+    text-shadow: 2px 2px 4px rgba(0, 0, 0, 0.3);
+}
+#upload-section {
+    text-align: center;
+    padding: 40px 0;
+}
+/* Add these styles */
+.canvas-container {
+    position: relative;
+    width: 100%;
+    height: 600px;
+    border: 1px solid #ccc;
+    border-radius: 5px;
+    overflow: hidden;
+    background-color: #f8f9fa;
+}
+.canvas-container canvas {
+    width: 100% !important;
+    height: 100% !important;
+}
+.plot-controls {
+    margin: 10px 0;
+    padding: 10px;
+    background-color: #f8f9fa;
+    border: 1px solid #ccc;
+    border-radius: 5px;
+}
+.plot-controls label {
+    display: block;
+    margin: 5px 0;
+}
+.plot-controls input[type="range"] {
+    width: 100%;
+}
+.pcl-stats {
+    position: absolute;
+    top: 10px;
+    left: 10px;
+    background: rgba(15, 15, 25, 0.9);
+    padding: 10px;
+    border-radius: 5px;
+    font-size: 12px;
+    pointer-events: none;
+    color: #ffffff;
+    font-weight: 500;
+    text-shadow: 0 1px 2px rgba(0, 0, 0, 0.3);
+}
+.pcl-stats p {
+    margin: 0;
+    padding: 2px 0;
+    color: #ffffff;
+}
+/* Add the font import at the top */
+@import url('https://fonts.googleapis.com/css?family=Space%20Grotesk:700|Space%20Grotesk:400');
+/* Add the custom properties */
+:root {
+    --m: 2rem;
+    --button-bg: #141516;
+    --border-width: 3px;
+    --border-radius: 100px;
+    --glow-spread: 40px;
+}
+/* Update the gradient-btn class */
+.gradient-btn {
+    position: relative;
+    padding: 1em 2em;
+    font-family: 'Space Grotesk', sans-serif;
+    font-size: var(--m);
+    font-weight: 500;
+    color: #fff;
+    background: var(--button-bg);
+    border: var(--border-width) solid transparent;
+    border-radius: var(--border-radius);
+    cursor: pointer;
+    overflow: hidden;
+    transition: all 0.3s ease;
+}
+.gradient-btn::before,
+.gradient-btn::after {
+    content: '';
+    position: absolute;
+    inset: calc(-1 * var(--border-width));
+    border-radius: var(--border-radius);
+    background: linear-gradient(
+        90deg,
+        #FF8A00,
+        #e52e71,
+        #FF8A00,
+        #e52e71
+    );
+    background-size: 300% 100%;
+    animation: moveGradient 2s linear infinite;
+    z-index: -2;
+}
+.gradient-btn::after {
+    filter: blur(var(--glow-spread));
+    opacity: 0.7;
+    z-index: -1;
+}
+.gradient-btn:hover::before,
+.gradient-btn:hover::after {
+    animation: moveGradient 1s linear infinite;
+}
+@keyframes moveGradient {
+    0% {
+        background-position: 0% 50%;
+    }
+    100% {
+        background-position: 150% 50%;
+    }
+}
+/* Media query for responsive design */
+@media screen and (max-width: 768px) {
+    :root {
+        --m: 1.5rem;
+        --border-width: 2px;
+        --glow-spread: 20px;
+    }
+}
+/* New button styles */
+.glow-button {
+    position: relative;
+    width: 300px;
+    padding: 16px 32px;
+    font-family: 'Space Grotesk', sans-serif;
+    font-size: 24px;
+    color: #ffffff;
+    background: #141516;
+    border: none;
+    border-radius: 50px;
+    cursor: pointer;
+    overflow: hidden;
+    box-shadow: 0 0 0 2px rgba(255, 255, 255, 0.1);
+    font-weight: 600;
+    letter-spacing: 0.8px;
+    text-shadow: 0 2px 4px rgba(0, 0, 0, 0.4);
+}
+.glow-button::before {
+    content: '';
+    position: absolute;
+    left: -2px;
+    top: -2px;
+    right: -2px;
+    bottom: -2px;
+    border-radius: 50px;
+    background: linear-gradient(
+        90deg,
+        #FF8A00,
+        #e52e71,
+        #FF8A00,
+        #e52e71
+    );
+    background-size: 300% 100%;
+    z-index: -2;
+}
+.glow-button::after {
+    content: '';
+    position: absolute;
+    inset: 2px;
+    border-radius: 48px;
+    background: #141516;
+    z-index: -1;
+}
+.glow-button:hover::before {
+    animation: borderRotate 2s linear infinite;
+}
+@keyframes borderRotate {
+    from {
+        background-position: 0% center;
+    }
+    to {
+        background-position: 200% center;
+    }
+}
+/* Update text colors and styles */
+h1 {
+    color: #ffffff;
+    font-family: 'Space Grotesk', sans-serif;
+    font-size: 2.5rem;
+    font-weight: 700;
+    text-shadow: 0 2px 8px rgba(0, 0, 0, 0.5);
+    letter-spacing: 0.5px;
+}
+h2 {
+    color: #e0e0ff;
+    font-family: 'Space Grotesk', sans-serif;
+    font-size: 1.8rem;
+    margin-top: 2rem;
+    margin-bottom: 1rem;
+    text-shadow: 0 2px 4px rgba(0, 0, 0, 0.4);
+    letter-spacing: 0.3px;
+    font-weight: 600;
+    background: linear-gradient(90deg, #ffffff, #e0e0ff);
+    -webkit-background-clip: text;
+    -webkit-text-fill-color: transparent;
+    display: inline-block;
+}
+/* Update container background for better contrast */
+.container {
+    background: rgba(10, 12, 25, 0.85);
+    box-shadow: 0 8px 32px 0 rgba(0, 0, 0, 0.5);
+}
+/* Update text-box for better readability */
+.text-box {
+    background: rgba(15, 15, 25, 0.7);
+    border: 1px solid rgba(255, 255, 255, 0.15);
+    color: #E0E0FF !important;
+    font-size: 1.1rem;
+    line-height: 1.6;
+    letter-spacing: 0.2px;
+    text-shadow: 0 1px 2px rgba(0, 0, 0, 0.3);
+    font-family: 'Space Grotesk', sans-serif;
+}
+/* Update the text sections for better contrast */
+#text-section h2,
+#processed-section h2,
+#augmented-section h2 {
+    position: relative;
+    padding-left: 0.5rem;
+}
+#text-section h2::before,
+#processed-section h2::before,
+#augmented-section h2::before {
+    content: '';
+    position: absolute;
+    left: -5px;
+    top: 50%;
+    transform: translateY(-50%);
+    width: 3px;
+    height: 70%;
+    background: linear-gradient(180deg, #FF8A00, #e52e71);
+    border-radius: 2px;
+}
+/* Add new styles for the reset button */
+#reset-btn {
+    background: linear-gradient(90deg, #FF416C, #FF4B2B);
+    text-transform: uppercase;
+    letter-spacing: 1px;
+    box-shadow: 0 4px 15px rgba(255, 65, 108, 0.3);
+    margin: 2rem auto;
+    display: block;
+    width: fit-content;
+}
+#reset-btn:hover {
+    background: linear-gradient(90deg, #FF4B2B, #FF416C);
+    box-shadow: 0 6px 20px rgba(255, 65, 108, 0.4);
+}
+/* Update container to handle centered button */
+.container {
+    display: flex;
+    flex-direction: column;
+    align-items: stretch;
+    min-height: 400px;
+}
+/* Style the Process Data and Augment Data buttons */
+#process-btn, #decode-btn {
+    /* Remove all individual styles as they're handled by .btn class */
+}
+/* Update section headings */
+h2 {
+    color: #E0E0FF !important;
+    font-family: 'Space Grotesk', sans-serif;
+    font-size: 1.8rem;
+    margin-top: 2rem;
+    text-shadow: 0 2px 4px rgba(0, 0, 0, 0.4);
+    font-weight: 600;
+    background: none;
+    -webkit-text-fill-color: #E0E0FF;
+}
+/* Description section styles */
+.description-section {
+    text-align: center;
+    margin: 2rem auto;
+    max-width: 800px;
+    padding: 2rem;
+    background: rgba(255, 255, 255, 0.05);
+    border-radius: 15px;
+    backdrop-filter: blur(10px);
+    border: 1px solid rgba(255, 255, 255, 0.1);
+}
+.description-text {
+    color: #E0E0FF;
+    font-size: 1.2rem;
+    margin-bottom: 2rem;
+    font-family: 'Space Grotesk', sans-serif;
+    text-shadow: 0 1px 2px rgba(0, 0, 0, 0.3);
+}
+.supported-types {
+    display: grid;
+    grid-template-columns: repeat(auto-fit, minmax(250px, 1fr));
+    gap: 1.5rem;
+    text-align: left;
+}
+.type-item {
+    padding: 1rem;
+    background: rgba(255, 255, 255, 0.05);
+    border-radius: 10px;
+    border: 1px solid rgba(255, 255, 255, 0.1);
+    transition: all 0.3s ease;
+    cursor: pointer;
+}
+.type-header {
+    display: flex;
+    flex-direction: column;
+    gap: 0.5rem;
+}
+.type-item:hover {
+    transform: translateY(-2px);
+    background: rgba(255, 255, 255, 0.08);
+}
+.type-title {
+    color: #ffffff;
+    font-size: 1.1rem;
+    font-weight: 600;
+    font-family: 'Space Grotesk', sans-serif;
+}
+.type-desc {
+    color: #E0E0FF;
+    font-size: 0.9rem;
+    opacity: 0.9;
+    font-family: 'Space Grotesk', sans-serif;
+}
+/* Sample buttons inside type-item */
+.type-item .sample-buttons {
+    margin-top: 1rem;
+    padding-top: 1rem;
+    border-top: 1px solid rgba(255, 255, 255, 0.1);
+    display: flex;
+    gap: 0.5rem;
+    justify-content: center;
+}
+.type-item .sample-btn {
+    padding: 0.5rem 1rem;
+    background: rgba(255, 255, 255, 0.1);
+    border: 1px solid rgba(255, 255, 255, 0.2);
+    border-radius: 8px;
+    color: #ffffff;
+    font-family: 'Space Grotesk', sans-serif;
+    cursor: pointer;
+    transition: all 0.3s ease;
+}
+.type-item .sample-btn:hover {
+    background: rgba(255, 255, 255, 0.2);
+    transform: translateY(-1px);
+}
+/* Animation for sample buttons */
+@keyframes slideDown {
+    from {
+        opacity: 0;
+        transform: translateY(-10px);
+    }
+    to {
+        opacity: 1;
+        transform: translateY(0);
+    }
+}
+.sample-buttons.show {
+    display: flex;
+    animation: slideDown 0.3s ease-out;
+}
+/* Operation description styles */
+.operation-description {
+    margin: 1rem 0;
+    padding: 1rem;
+    background: rgba(74, 0, 224, 0.1);
+    border-left: 4px solid #4A00E0;
+    border-radius: 0 8px 8px 0;
+    color: #E0E0FF;
+    font-family: 'Space Grotesk', sans-serif;
+    font-size: 0.95rem;
+    line-height: 1.5;
+    animation: slideDown 0.3s ease-out;
+}
+.operation-description ul {
+    margin: 0.5rem 0 0 1.2rem;
+}
+.operation-description li {
+    margin: 0.3rem 0;
+}
+@keyframes slideDown {
+    from {
+        opacity: 0;
+        transform: translateY(-10px);
+    }
+    to {
+        opacity: 1;
+        transform: translateY(0);
+    }
+}
+/* Add these styles to your existing CSS */
+.sample-section {
+    text-align: center;
+    padding: 1rem 0;
+}
+.sample-section h3 {
+    color: #ffffff;
+    font-family: 'Space Grotesk', sans-serif;
+    margin-bottom: 1.5rem;
+    font-size: 1.3rem;
+    font-weight: 600;
+    text-shadow: 0 2px 4px rgba(0, 0, 0, 0.3);
+}
+.sample-buttons {
+    display: flex;
+    gap: 1.5rem;
+    justify-content: center;
+    margin: 1.5rem 0;
+}
+.sample-btn {
+    padding: 8px 16px;
+    background: linear-gradient(to bottom, #ffffff 0%, #f3f3f3 100%);
+    border: 1px solid #ccc;
+    border-radius: 4px;
+    color: #333333;
+    font-family: 'Space Grotesk', sans-serif;
+    font-size: 0.9rem;
+    font-weight: 400;
+    cursor: pointer;
+    transition: all 0.2s ease;
+    box-shadow: 0 1px 2px rgba(0, 0, 0, 0.05);
+}
+.sample-btn:hover {
+    background: linear-gradient(to bottom, #f3f3f3 0%, #e6e6e6 100%);
+    border-color: #adadad;
+    transform: translateY(0);
+    box-shadow: 0 1px 2px rgba(0, 0, 0, 0.1);
+}
+.sample-btn:active {
+    background: #e6e6e6;
+    border-color: #adadad;
+    box-shadow: inset 0 3px 5px rgba(0, 0, 0, 0.125);
+    transform: translateY(1px);
+}
+.sample-description {
+    color: #E0E0FF;
+    font-size: 0.9rem;
+    opacity: 0.8;
+    margin-top: 1rem;
+}
+/* Add these new styles */
+.input-section {
+    display: flex;
+    flex-direction: column;
+    align-items: center;
+    gap: 1rem;
+    margin: 2rem 0;
+}
+.sample-section {
+    background: rgba(255, 255, 255, 0.1);
+    padding: 1.5rem;
+    border-radius: 8px;
+}
+.sample-section h3 {
+    color: #ffffff;
+    font-family: 'Space Grotesk', sans-serif;
+    margin-bottom: 1rem;
+    font-size: 1.2rem;
+}
+.sample-buttons {
+    display: flex;
+    gap: 0.5rem;
+    justify-content: center;
+    margin: 1rem 0;
+}
+.separator {
+    display: flex;
+    align-items: center;
+    text-align: center;
+    margin: 1rem 0;
+}
+.separator::before,
+.separator::after {
+    content: '';
+    flex: 1;
+    border-bottom: 1px solid rgba(255, 255, 255, 0.2);
+    margin: 0 1.5rem;
+}
+.separator span {
+    font-size: 1rem;
+    color: rgba(255, 255, 255, 0.6);
+    font-family: 'Space Grotesk', sans-serif;
+    text-transform: uppercase;
+    letter-spacing: 1px;
+}
+#upload-section {
+    margin-top: 1rem;
+    text-align: center;
+}
+/* Update existing styles */
+.type-item {
+    cursor: default;
+}
+.type-item:hover {
+    transform: none;
+}
+/* New glow-on-hover effect for sample buttons */
+.glow-on-hover {
+    /* Remove these styles as they're no longer needed */
+}
+/* Add styles for decode button */
+/* #decode-btn {
+    background: linear-gradient(90deg, #4A00E0, #8E2DE2);
+    border: none;
+    color: white;
+    padding: 12px 30px;
+    border-radius: 50px;
+    font-weight: 600;
+    margin: 1rem 0;
+    box-shadow: 0 4px 15px rgba(74, 0, 224, 0.3);
+}
+#decode-btn:hover {
+    background: linear-gradient(90deg, #8E2DE2, #4A00E0);
+    transform: translateY(-2px);
+    box-shadow: 0 6px 20px rgba(74, 0, 224, 0.4);
+} */
+/* Update section styles to include decoded section */
+#decoded-section {
+    margin-top: 2rem;
+}
+#decoded-section h2 {
+    color: #E0E0FF;
+}
+/* Style both Process Text and Decode Tokens buttons consistently */
+#process-btn, #decode-btn {
+    background: linear-gradient(90deg, #4A00E0, #8E2DE2);
+    border: none;
+    color: white;
+    padding: 12px 30px;
+    border-radius: 50px;
+    font-family: 'Space Grotesk', sans-serif;
+    font-size: 1rem;
+    font-weight: 600;
+    margin: 1rem 0;
+    box-shadow: 0 4px 15px rgba(74, 0, 224, 0.3);
+    cursor: pointer;
+    transition: all 0.3s ease;
+}
+#process-btn:hover, #decode-btn:hover {
+    background: linear-gradient(90deg, #8E2DE2, #4A00E0);
+    transform: translateY(-2px);
+    box-shadow: 0 6px 20px rgba(74, 0, 224, 0.4);
+}
+#process-btn:active, #decode-btn:active {
+    transform: translateY(1px);
+}
+/* Create a new class specifically for these action buttons */
+.action-btn {
+    background: linear-gradient(90deg, #4A00E0, #8E2DE2);
+    border: none;
+    color: white;
+    padding: 12px 30px;
+    border-radius: 50px;
+    font-family: 'Space Grotesk', sans-serif;
+    font-size: 1rem;
+    font-weight: 600;
+    margin: 1rem 0;
+    box-shadow: 0 4px 15px rgba(74, 0, 224, 0.3);
+    cursor: pointer;
+    transition: all 0.3s ease;
+    display: inline-block;
+}
+.action-btn:hover {
+    background: linear-gradient(90deg, #8E2DE2, #4A00E0);
+    transform: translateY(-2px);
+    box-shadow: 0 6px 20px rgba(74, 0, 224, 0.4);
+}
+.action-btn:active {
+    transform: translateY(1px);
+}
+/* Remove any individual button styles */
+#process-btn, #decode-btn {
+    /* Remove all individual styles */
+}

static/favicon.ico ADDED Viewed

static/js/script.js ADDED Viewed

	@@ -0,0 +1,210 @@

+document.addEventListener('DOMContentLoaded', function() {
+    const fileInput = document.getElementById('file-input');
+    const uploadBtn = document.getElementById('upload-btn');
+    const processBtn = document.getElementById('process-btn');
+    const resetBtn = document.getElementById('reset-btn');
+    const uploadSection = document.getElementById('upload-section');
+    const textSection = document.getElementById('text-section');
+    const processedSection = document.getElementById('processed-section');
+    const originalData = document.getElementById('original-data');
+    const processedData = document.getElementById('processed-data');
+    const decodedSection = document.getElementById('decoded-section');
+    const decodedData = document.getElementById('decoded-data');
+    const decodeBtn = document.getElementById('decode-btn');
+    let currentText = ''; // Store the current text being processed
+    let isFromFile = false; // Track if text is from file upload or sample
+    function showProcessingDescription() {
+        const descriptionElement = document.getElementById('process-description');
+        const description = `
+            <strong>Processing Operations:</strong>
+            <ul>
+                <li>Tokenization of text using Byte Pair Encoding (BPE)</li>
+                <li>Conversion to numerical token IDs</li>
+            </ul>
+        `;
+        descriptionElement.innerHTML = description;
+        descriptionElement.classList.remove('hidden');
+    }
+    // Upload button click handler
+    uploadBtn.addEventListener('click', () => fileInput.click());
+    // File input change handler
+    fileInput.addEventListener('change', async (e) => {
+        const file = e.target.files[0];
+        if (file) {
+            // Clear previous data
+            originalData.innerHTML = '';
+            processedData.innerHTML = '';
+            decodedData.innerHTML = '';  // Clear decoded data
+            // Clear descriptions and hide sections
+            document.getElementById('process-description').innerHTML = '';
+            document.getElementById('process-description').classList.add('hidden');
+            processedSection.classList.add('hidden');
+            decodedSection.classList.add('hidden');  // Hide decoded section
+            const formData = new FormData();
+            formData.append('file', file);
+            try {
+                const response = await fetch('/upload', {
+                    method: 'POST',
+                    body: formData
+                });
+                if (!response.ok) {
+                    const errorData = await response.json();
+                    throw new Error(errorData.detail || 'Upload failed');
+                }
+                const data = await response.json();
+                currentText = data.text;
+                isFromFile = true;
+                originalData.textContent = currentText;
+                textSection.classList.remove('hidden');
+                resetBtn.classList.remove('hidden');
+            } catch (error) {
+                console.error('Error:', error);
+                alert('Error uploading file: ' + error.message);
+                resetBtn.classList.add('hidden');
+            }
+        } else {
+            resetBtn.classList.add('hidden');
+        }
+    });
+    // Process button click handler
+    processBtn.addEventListener('click', async () => {
+        if (!currentText) return;
+        try {
+            let response;
+            if (isFromFile) {
+                // Handle file upload case
+                const file = fileInput.files[0];
+                const formData = new FormData();
+                formData.append('file', file);
+                response = await fetch('/process', {
+                    method: 'POST',
+                    body: formData
+                });
+            } else {
+                // Handle sample text case
+                response = await fetch('/process_text', {
+                    method: 'POST',
+                    headers: {
+                        'Content-Type': 'application/json',
+                    },
+                    body: JSON.stringify({ text: currentText })
+                });
+            }
+            if (!response.ok) {
+                const errorData = await response.json();
+                throw new Error(errorData.detail || 'Processing failed');
+            }
+            const data = await response.json();
+            showProcessingDescription();
+            processedData.textContent = data.processed_data;
+            processedSection.classList.remove('hidden');
+        } catch (error) {
+            console.error('Error:', error);
+            alert('Error processing text: ' + error.message);
+        }
+    });
+    // Reset button handler
+    resetBtn.addEventListener('click', () => {
+        fileInput.value = '';
+        currentText = '';
+        isFromFile = false;
+        originalData.innerHTML = '';
+        processedData.innerHTML = '';
+        document.getElementById('process-description').innerHTML = '';
+        document.getElementById('process-description').classList.add('hidden');
+        textSection.classList.add('hidden');
+        processedSection.classList.add('hidden');
+        resetBtn.classList.add('hidden');
+        decodedData.innerHTML = '';
+        decodedSection.classList.add('hidden');
+    });
+    // Update sample button handlers
+    const sampleBtns = document.querySelectorAll('.sample-btn');
+    sampleBtns.forEach(button => {
+        button.addEventListener('click', () => {
+            const sampleNumber = button.getAttribute('data-sample');
+            loadSampleText(sampleNumber);
+        });
+    });
+    async function loadSampleText(sampleNumber) {
+        try {
+            const response = await fetch(`/sample/${sampleNumber}`);
+            if (!response.ok) {
+                throw new Error('Failed to load sample text');
+            }
+            const data = await response.json();
+            // Clear previous data
+            originalData.innerHTML = '';
+            processedData.innerHTML = '';
+            decodedData.innerHTML = '';  // Clear decoded data
+            document.getElementById('process-description').innerHTML = '';
+            document.getElementById('process-description').classList.add('hidden');
+            processedSection.classList.add('hidden');
+            decodedSection.classList.add('hidden');  // Hide decoded section
+            // Store and display the sample text
+            currentText = data.text;
+            isFromFile = false;
+            originalData.textContent = currentText;
+            textSection.classList.remove('hidden');
+            resetBtn.classList.remove('hidden');
+        } catch (error) {
+            console.error('Error:', error);
+            alert('Error loading sample text: ' + error.message);
+        }
+    }
+    // Update decode button handler
+    decodeBtn.addEventListener('click', async () => {
+        try {
+            // Get the processed text and clean it
+            const tokenText = processedData.textContent.trim();
+            const response = await fetch('/decode_text', {
+                method: 'POST',
+                headers: {
+                    'Content-Type': 'application/json',
+                },
+                body: JSON.stringify({ text: tokenText })
+            });
+            if (!response.ok) {
+                const errorData = await response.json();
+                throw new Error(errorData.detail || 'Decoding failed');
+            }
+            const data = await response.json();
+            decodedData.textContent = data.decoded_text;
+            decodedSection.classList.remove('hidden');
+        } catch (error) {
+            console.error('Error:', error);
+            alert('Error decoding text: ' + error.message);
+        }
+    });
+});

templates/index.html ADDED Viewed

	@@ -0,0 +1,70 @@

+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Text Tokenization</title>
+    <link rel="preconnect" href="https://fonts.googleapis.com">
+    <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+    <link href="https://fonts.googleapis.com/css2?family=Space+Grotesk:wght@400;700&display=swap" rel="stylesheet">
+    <link rel="stylesheet" href="{{ url_for('static', path='/css/style.css') }}">
+    <link rel="icon" type="image/x-icon" href="{{ url_for('static', path='/favicon.ico') }}">
+</head>
+<body style="background: #000428;">
+    <div class="container">
+        <h1 style="text-align: center; margin: 2rem 0; color: #ffffff; text-shadow: 0 2px 8px rgba(0, 0, 0, 0.5);">
+            Tokenization
+        </h1>
+        <!-- Description Section -->
+        <div class="description-section">
+            <p class="description-text">
+                Text tokenization using Byte Pair Encoding (BPE). Supports Indian language.
+            </p>
+            <div class="sample-section">
+                <h3>Try with samples:</h3>
+                <div class="sample-buttons">
+                    <button class="sample-btn" data-sample="1">Sample 1</button>
+                    <button class="sample-btn" data-sample="2">Sample 2</button>
+                    <button class="sample-btn" data-sample="3">Sample 3</button>
+                </div>
+                <div class="separator">
+                    <span>or</span>
+                </div>
+            </div>
+        </div>
+        <!-- File Upload Section -->
+        <div id="upload-section">
+            <input type="file" id="file-input" accept=".txt" style="display: none;">
+            <button id="upload-btn" class="glow-button">Upload Text File</button>
+        </div>
+        <!-- Text Display Section -->
+        <div id="text-section" class="hidden">
+            <h2>Original Text:</h2>
+            <div id="original-data" class="text-box"></div>
+            <button id="process-btn" class="action-btn">Encode Text</button>
+            <div id="process-description" class="operation-description hidden"></div>
+        </div>
+        <!-- Processed Data Section -->
+        <div id="processed-section" class="hidden">
+            <h2>Tokens:</h2>
+            <div id="processed-data" class="text-box"></div>
+            <button id="decode-btn" class="action-btn">Decode Tokens</button>
+        </div>
+        <!-- Decoded Data Section -->
+        <div id="decoded-section" class="hidden">
+            <h2>Decoded Text:</h2>
+            <div id="decoded-data" class="text-box"></div>
+        </div>
+        <!-- Reset Button -->
+        <button id="reset-btn" class="btn hidden">Reset</button>
+    </div>
+    <script src="{{ url_for('static', path='/js/script.js') }}"></script>
+</body>
+</html>

tokenization.ipynb ADDED Viewed

	@@ -0,0 +1,2020 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Import text from dataset.txt\n",
+    "with open('dataset.txt', 'r') as file:\n",
+    "    text = file.read()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "'बहुचर्चित एचएएल एम्प्लॉईज सहकारी सोसायटीच्या २००१ ते २०११ या कालावधीत लेखा परीक्षण करताना कसूर केल्याच्या कारणावरून सहकार विभागाने लेखा परीक्षकांना कारणे दाखवा नोटीस बजावली आहे. या संदर्भात सोसायटीच्या सभासदांनी तीन वार्षिक सर्वसाधारण सभांत ठराव मंजूर करून लेखा परीक्षकांवर गुन्हे दाखल करण्याची मागणी सहकार खात्याकडे केली होती. एचएएल सोसायटीत २००१ ते २०१२ या काळात कोटय़वधी रुपयांचा गैरव्यवहार झाल्याचे निष्पन्न झाले आहे. या कार्यकाळात लेखा परीक्षकांनी कायद्याप्रमाणे लेखा परीक्षण करून वेळीच कारवाई केली असती तर भ्रष्टाचार झाला नसता आणि सोसायटी वाचली असती, असे सभासदांचे म्हणणे आहे. सभासदांनी लेखा परीक्षकांवर गुन्हे दाखल करण्याच्या केलेल्या ठरावाची अंमलबजावणी करावी यासाठी एचएएल सोसायटी नवनिर्माण कृती समितीचे समन्वयक प्रवीण तिदमे यांच्या नेतृत्वाखाली नोव्हेंबर महिन्यात जिल्हा उपनिबंधक कार्यालयासमोर उपोषणही केले होते. त्यानंतर जिल्हा विशेष लेखा परीक्षक वर्ग १ सहकारी संस्था यांनी लेखा परीक्षण अहवालाची छाननी केली. त्या पाश्र्वभूमीवर, तुषार बाजीराव पगार (नाशिक), डी. एम. बारस्कर (अहमदनगर), जयंत व्ही. कोळपकर अॅण्ड कंपनी (पुणे), बिपीन जैन (धुळे), सतीष बन्सीलाल संघवी (नाशिक) आणि एस. आर. करवा अॅण्ड कंपनी (नाशिकरोड) यांना कारणे दाखवा नोटिसा बजावल्या आहेत. याची माहिती कृती समितीने दिली. संबंधितांना पाठविलेल्या नोटिसीत लेखा परीक्षण छाननी अहवालात समोर आलेल्या गंभीर मुद्दय़ांचा उल्लेख सहकार विभागाने केला आहे. संचालक मंडळाने २००६ ते ११ या कालावधीत २६.२५ कोटी रुपयांची रक्कम पूर्वपरवानगी न घेता बँक ऑफ महाराष्ट्रमध्ये केलेल्या मुदतठेव गुंतवणुकीत १७ कोटींची अफरातफर व गैरव्यवहाराच्या आक्षेपावर लेखा परीक्षकांनी त्यांच्या अहवाल वर्षांत गुंतवणूक वा मुदत ठेव नूतनीकरणाबाबत कोणतेही शेरे नमूद नाहीत. २११.०१ लाख भागभांडवल परत केले. मात्र भागमूल्यांकनानुसार रक्कम परत करण्याबाबत शेरे नमूद नाहीत, लेखा परीक्षकांनी लेखा परीक्षणावेळी योग्यरीत्या तपासणी करून गुंतवणु���ीची खात्री केली नाही, लेखा परीक्षणात तेरीजपत्रक जोडले नसल्याने किती भागभांडवल परत केले आहे याची रक्कम नमूद करता येत नाही अशा विविध बाबी नोटिसीत नमूद करण्यात आल्या आहेत. जिल्हा उपनिबंधकांनी लेखा परीक्षकांना नोटीस बजावत कारवाई सुरू केल्यामुळे सभासदांनी तिचे स्वागत केले आहे. पाच हजार कुटुंबांचा आर्थिक आधार असणारी सोसायटी पुनरुजीवित होईपर्यंत आमचा लढा सुरू राहणार असल्याचे सोसायटी नवनिर्माण कृती समितीने म्हटले आहे.\\n\\nट्युनिस : उत्तर आफ्रिकेतील ट्युनिशिया देशाची राजधानी. लोकसंख्या ६,८५,००० (१९६६). प्राचीन कार्थेजपासून सु.१५ किमी., भूमध्य समुद्राकाठी मोक्याच्या जागी, काहीशा उंच संयोगभूमीवर वसलेले हे शहर सु. १० किमी.वरील हल्क-अल् वाडी (ला गूलेट) या त्याच्या बंदराशी ७ मी. खोल खाडीने जोडलेले आहे. येथील हवामान भूमध्यसामुद्री असून वार्षिक सरासरी तपमान व पर्जन्य अनुक्रमे १७·७° से. व ३७·५ सेंमी. आहे. जुने ट्युनिस कसबा किल्ल्यापासून टेकडीच्या उतारावर वसले असून मदीना हा त्याचा मुख्य भाग आहे. आधुनिक ट्युनिस टेकडी व ट्युनिस सरोवर यांमधील सखल भागावर वसले आहे. येथे प्रशस्त रस्ते, हवेशीर घरे, उंच इमारती व आधुनिक सुखसोयी आहेत. जुन्या भागात अरुंद बोळ, एकमजली बिनखिडक्यांची चौकोनी घरे, \\'सुक\\' नावाचे छपरबंद बाजार, अझ झैतूनासारख्या प्राचीन मशिदी, जुने मुस्लिम विद्यापीठ इ. आहेत. रोमन वास्तुशैलीची स्नानगृहे प्रसिद्ध आहेत. लोकवस्ती फ्रेंच, इटालियन आणि मुस्लिम अशी संमिश्र आहे. ट्युनिसभोवती ऑलिव्ह व इतर भूमध्यसामुद्री फळे व धान्ये पिकतात. गावात पीठगिरण्या, साबण, ऑलिव्ह तेल, फळे डबाबंद करणे, टिकविणे, व सुकविणे, मद्ये, कापड, गालिचे, सिमेंट, बांधकाम साहित्य, धातुशुद्धी, सुपरफॉस्फेटसारखे रासायनिक पदार्थ, खाणीसाठी स्फोटके, यंत्रे, अत्तरे, पादत्राणे, विणलेले कपडे, रेल्वे कर्मशाळा, वीजउद्योग, औष्णिक वीजकेंद्रे इ. कारखाने व उद्योग आहेत. ट्युनिसहून फॉस्फेट, लोहधातुके, फळे, खजूर, ऑलिव्ह तेल, कागदासाठी एस्पार्टो गवत, स्पंज, स्थानिक गालिचे, मातीची भांडी इ. निर्यात होतात. येथे आंतरराष्ट्रीय विमानतळ असून, हे देशातील व शेजारी देशांतील शहरांशी लोहमार्गांनी व सडकांनी जोडलेले आहे. दवाखाने, रुग्णालये, सांस्कृतिक केंद्रे, शाळा, ट्युनिस विद्यापीठ (१९१६), नगरपालिका इ. सोयी आहेत. येथील पर्यटन व्यवसाय वाढत आहे.\\n\\nएखाद्याची अक्कल काढायची असल्यास, त्याची अक्कल घुटण्यात आहे काय? एखाद्याची अक्कल काढायची असल्यास, त्याची अक्कल घुटण्यात आहे काय? असा शब्दप्रयोग सर्रास केला जातो किंवा कुणाला शरणागती पत्करण्यास भाग पाडले तरी \\'त्याला गुडघे टेकायला लावले\\', असे आम्ही मोठ्या अभिमानाने सांगत असतो. तर असा हा \\'घुटणा\\' म्हणजेच गुडघा मानवी शरीरातील अत्यंत महत्त्वाचा भाग. गुडघा निकामी झाला की माणसाचे चालणेच थांबते. अशा वेळी मग कृत्रिम गुडघा बसविण्याशिवाय दुसरा पर्याय त्याच्याकडे नसतो. एरवी या गुडघ्याच्या प्रत्यारोपणाचा अवाढव्य खर्च आणि रुग्णांची होणारी लुटमार बघितली की मग कुणाच्याही घुटण्यात आल्याशिवाय राहत नाही. मात्र यापुढे तशी गरज पडणार नाही. कारण केंद्र शासनाने आता गुडघे प्रत्यारोपण शस्त्रक्रियेसाठीच्या दरांवर नियंत्रण आणण्याचा निर्णय घेतला आहे. त्यामुळे या शस्त्रक्रियेवरील खर्च जवळपास ७० टक्क्यांनी कमी होण्याची शक्यता असून, समस्त गुडघाग्रस्तांसाठी ही आनंदाची वार्ता आहे. राष्टÑीय औषध दर नियंत्रण प्राधिकरणाने (एनपीपीए) गुडघ्यांच्या शस्त्रक्रियेमध्ये रुग्णांची होणारी लुबाडणूक थांबविण्याकरिता रुग्णालये, वितरक तसेच आयातदारांच्या नफेखोरीचे आकडे गेल्या आठवड्यात उघडकीस आणले होते. या शस्त्रक्रियेत तब्बल ३०० टक्क्यांहून अधिक नफा कमावला जात असल्याचे एनपीपीएने लक्षात आणून दिले आहे. मुख्य म्हणजे पंतप्रधान नरेंद्र मोदी यांनी स्वातंत्र्यदिनाच्या आपल्या भाषणात हृदयरुग्णांसाठीच्या स्टेंटस्प्रमाणे गुडघा प्रत्यारोपण शस्त्रक्रिया स्वस्त करण्याचा मुद्दा मांडला होता. त्यानंतर हालचालींना वेग आला. हा निर्णय निश्चितच स्वागतार्ह आणि रुग्णांना मोठा दिलासा देणारा आहे. अपघात, बदलती जीवनशैली, व्यायामाचा अभाव आदी कारणांमुळे आज अस्थिरोग आणि प्रामुख्याने गुडघ्यांचे आजार प्रचंड वाढले आहेत. देशात आजमितीस दीड ते दोन कोटी लोकांना गुडघा प्रत्यारोपणाची गरज आहे. परंतु केवळ सव्वा ते दीड लाखच शस्त्रक्रिया होत असतात. कारण यासाठी चार ते पाच लाख रुपये खर्च येत असल्याने अनेकदा रुग्णांना ते आर्थिकदृष्ट्या परवडत नसते. परंतु आता किमती घसरल्याने ते शक्य होणार आहे. केंद्र शासनाने यावर्षीच्या प्रारंभी न���े आरोग्य धोरण जाहीर केले होते. या धोरणात ज्या महत्त्वाच्या पैलूंवर लक्ष केंद्रित करण्यात आले त्यात जनतेला आरोग्यसेवेवर कराव्या लागणाºया खर्चात कपात प्रमुख होती. त्यादिशेने वाटचाल सुरू झाली आहे, असे समजण्यास हरकत नाही.\\n\\nनागपूरः राज्याचे विद्यमान अन्न व औषधी प्रशासन मंत्री संजय राठोड हे भाजप-शिवसेना सरकारमध्ये महसूल राज्यमंत्री असताना त्यांनी वाशिम जिल्ह्यातील कारंजा लाड येथील गायरानाची २५ कोटी रुपये किमतीची तब्बल १० एकर जमीन दोन व्यक्तींना वाटप केल्याचे नवे प्रकरण समोर आले. तत्कालीन जिल्हाधिकारी लक्ष्मीनारायण मिश्रा यांनी या जमिनीच्या प्रकरणात बनावट कागदपत्रे सादर करणाऱ्या व्यक्तींविरुद्ध फौजदारी गुन्हे दाखल करावेत आणि ही जमीन सरकारजमा करावी असे सुस्पष्ट आदेश दिले होते; पण ते डावलून राठोड यांनी काळी कारंजामधील पाच एकर जमीन ही युनूस अय्युब अन्सारी यांना, तर पाच एकर जमीन ही रोहित राधेश्याम लाहोटी यांना दिली. दोन्ही आदेश त्यांनी एकाच दिवशी म्हणजे ७ ऑगस्ट २०१९ रोजी पारित केले. \\'लोकमत\\'ने मंगळवारी सावरगावची ५ एकर जमीन खासगी व्यक्तीच्या नावे केल्याचे प्रकरण उघडकीस आणले. या प्रकरणावर संजय राठोड यांचे दोन्ही मोबाइल स्विच ऑफ होते. मंत्रिमहोदयांची प्रकृती बरी नसल्याचे त्यांचे स्वीय सचिव म्हणाले. - बेकायदा जमीन वाटपप्रकरणी सोमवारी कामकाज रोखून धरणाऱ्या विरोधकांनी मंगळवारी मात्र या मुद्द्यावर मौन बाळगल्याने आश्चर्य व्यक्त केले जात आहे. - कृषिमंत्री अब्दुल सत्तार सभागृहात असूनही विरोधी पक्षाने त्यांच्या राजीनाम्याच्या मागणीला स्पर्श केला नाही. सत्तापक्ष आणि विरोधक यांच्यात या विषयावर काही समझौता तर झाला नाही ना, अशी चर्चाही विधानभवन परिसरात रंगली होती. सर्व ठळक बातम्यांसाठी जरूर वाचा महाराष्ट्रातील अव्वल मराठी वेबसाईट \"लोकमत डॉट कॉम\"\\n\\nसोलापूर : निर्यातक्षम केळी तोडणे, ती व्यवस्थित ठेवणे आणि कंटेनरमध्ये भरणे आदी कामांमध्ये पश्चिम बंगालच्या मजुरांचे कौशल्य असून कोरोना साथीमुळे गावी गेलेल्या या मजुरांना जिल्ह्यात परत येण्यासाठी परवानगी द्यावी, अशी मागणी करमाळा येथील केळी निर्यातदारांनी केली आहे. हे कामगार राज्यात परत गेल्याने स्थानिक कामगारांना हे काम देण्यात आले; पण त्यांच्याकडून निर्यातक्षम प्रत राखण्यात अडचणी येत असल्याची कैफियत या निर्यातदारांनी व्हिडिओ कॉन्फरन्सद्वारे जिल्हाधिकाºयापुढे मांडली आहे. कोरोनाचा प्रादुर्भाव सुरू झाल्यानंतर करमाळा तालुक्यातील कंदर, माळशिरस व माढा तालुक्यातील परराज्यातील कामगार रेल्वेची सुविधा उपलब्ध झाल्यानंतर आपल्या राज्यात परत गेले आहेत. परंतु कोरोना प्रादुर्भावाच्या सुरुवातीच्या टप्प्यामध्ये सोलापूरमधून अफगाणिस्थान, इराण, ओमान, सौदीअरेबिया व नेदरलॅण्ड या देशांमध्ये ५३८ मे. टनपर्यंत केळीची निर्यात झालेली आहे. परराज्यातील कामगार स्थलांतरित झाल्यानंतर स्थानिक कामगारांना निर्यात साखळीमध्ये घेऊन काम पुढे सुरू ठेवण्याचा प्रयत्न स्थानिक निर्यातदारांनी केलेला आहे. पण स्थानिक कामगारांकडून निर्यातक्षम प्रत राखण्यात अडचणी येत असल्याने निर्यातीवर परिणाम होत असल्याची तक्रार निर्यातदारांनी केली आहे. या पार्श्वभूमीवर जिल्हाधिकारी मिलिंद शंभरकर यांनी केळी निर्यातदारांशी व्हिडिओ कॉन्फरन्सद्वारे चर्चा केली. यामध्ये अजहर पठाण, अजित ओतारी, नीलेश काळे, किरण डोके, विष्णू पोळ या प्रतिनिधींनी भाग घेतला. निर्यातीमध्ये केळी काढणीपासून ते कंटेनरमध्ये भरेपर्यंत शक्यतो पश्चिम बंगालमधील कामगारांमार्फत सर्व प्रक्रिया पूर्ण केली जात होती. यामध्ये केळी झाडावरून उतरविणे, ती साफ करणे, केळीच्या फण्या वेगळ्या करणे, डंपिंग करणे, परत स्वच्छ करणे व हवाबंद प्लास्टिक बॅगमध्ये पॅक करून ती कर्टन बॉक्समध्ये ठेवणे व कंटेनरमध्ये भरणे अशी संपूर्ण प्रक्रिया करण्यास त्यांना दीड रुपया प्रति किलो मजुरी दिली जाते. हे कामगार दरवर्षी सणांदरम्यान मूळगावी परतात. त्यांच्या एका समूहामध्ये २० लोक असतात. प्रतिकिलोप्रमाणे मजुरी असल्याने पहाटेपासून केळीचे घड उतरविण्यापासून ते कंटेनरमध्ये भरण्यापर्यंत काम करण्याची त्यांची तयारी असते. पण स्थानिक कामगारांना वेळेचे बंधन व अंगावर घेऊन काम करण्याची तयारी नसल्याची अडचण होत असल्याच्या तक्रारी मांडल्या. त्यामुळे पश्चिम बंगालमधील कर्मचाºयांना परत बोलावण्यास परवानगी द्यावी, अशी मागणी केली. स्थानिक कामगार केळी निर्यात साखळीमध्ये काम करण्यास अकुशल आहेत. त्यांच्या कामाचे तास सकाळी १० ते सायंकाळी ६ पर्यंतच आहे. त्यांना प्रशिक्षित केल्यानंतर इतर निर्यातदारांकडे कामासाठी जाण्याचे प्रमाण जास्त आहे. प्रति किलोमागे मजुरी दरामध्ये वाढ करावी, अशी अपेक्षा असल्याने उत्पादन खर्चात वाढ होत आहे. कोरोना प्रादुर्भावामुळे पुणे-मुंबईसारख्या शहरातील परत आलेले कामगार या साखळीत काम करीत आहेत. कोरोना प्रादुर्भाव संपल्यानंतर पश्चिम बंगालचे कामगार कामावर येण्याची शक्यता आहे. स्थानिक कामगारांमार्फत निर्यातक्षम केळीची प्रत निर्यात साखळीमध्ये राखली जात नाही, असे व्यापाºयांचे म्हणणे आहे. जिल्ह्यातील केळी लागवडीच्या पट्ट्यामध्ये प्रगतिशील शेतकºयांच्या माध्यमातून स्थानिक कामगारांना प्रशिक्षित करण्याचे नियोजन आहे. सध्या परराज्याच्या कामगारांना परत केळी निर्यात पट्ट्यामध्ये आणून त्यांच्या समूहामध्ये स्थानिक कामगारांचा समावेश करण्यात येणार आहे. - रवींद्र माने,\\n'"
+      ]
+     },
+     "execution_count": 2,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "text"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "tokens = text.encode(\"utf-8\") # raw bytes\n",
+    "tokens = list(map(int, tokens)) # convert to a list of integers in range 0..255 for convenience"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "tokens length: 27038\n",
+      "ids length: 3776\n",
+      "compression ratio: 7.16X\n"
+     ]
+    }
+   ],
+   "source": [
+    "def get_stats(ids: list[int]) -> dict[tuple[int, int], int]:\n",
+    "    \"\"\"\n",
+    "    Get the frequency of each pair of tokens in the list\n",
+    "    :param ids: list of integers\n",
+    "    :return: dictionary of pairs and their frequencies\n",
+    "    \"\"\"\n",
+    "    counts = {}\n",
+    "    for pair in zip(ids, ids[1:]):\n",
+    "        counts[pair] = counts.get(pair, 0) + 1\n",
+    "    return counts\n",
+    "\n",
+    "\n",
+    "def merge(ids: list[int], pair: tuple[int, int], idx: int) -> list[int]:\n",
+    "  \"\"\"\n",
+    "  Merge the pair of tokens into a new token\n",
+    "  :param ids: list of integers\n",
+    "  :param pair: tuple of integers\n",
+    "  :param idx: integer\n",
+    "  :return: list of integers\n",
+    "  \"\"\"\n",
+    "  newids = []\n",
+    "  i = 0\n",
+    "  \n",
+    "  while i < len(ids):\n",
+    "    if i < len(ids) - 1 and ids[i] == pair[0] and ids[i+1] == pair[1]:\n",
+    "      newids.append(idx)\n",
+    "      i += 2\n",
+    "    else:\n",
+    "      newids.append(ids[i])\n",
+    "      i += 1\n",
+    "  return newids\n",
+    "\n",
+    "# ---\n",
+    "vocab_size = 1000 # the desired final vocabulary size\n",
+    "num_merges = vocab_size - 256\n",
+    "ids = list(tokens) # copy so we don't destroy the original list\n",
+    "\n",
+    "merges = {} # (int, int) -> int\n",
+    "for i in range(num_merges):\n",
+    "  stats = get_stats(ids)\n",
+    "  pair = max(stats, key=stats.get)\n",
+    "  idx = 256 + i\n",
+    "  # print(f\"merging {pair} into a new token {idx}\")\n",
+    "  ids = merge(ids, pair, idx)\n",
+    "  merges[pair] = idx\n",
+    "\n",
+    "print(\"tokens length:\", len(tokens))\n",
+    "print(\"ids length:\", len(ids))\n",
+    "print(f\"compression ratio: {len(tokens) / len(ids):.2f}X\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def encode(text):\n",
+    "  # given a string, return list of integers (the tokens)\n",
+    "  tokens = list(text.encode(\"utf-8\"))\n",
+    "  while len(tokens) >= 2:\n",
+    "    stats = get_stats(tokens)\n",
+    "    pair = min(stats, key=lambda p: merges.get(p, float(\"inf\")))\n",
+    "    if pair not in merges:\n",
+    "      break # nothing else can be merged\n",
+    "    idx = merges[pair]\n",
+    "    tokens = merge(tokens, pair, idx)\n",
+    "  return tokens\n",
+    "\n",
+    "vocab = {idx: bytes([idx]) for idx in range(256)}\n",
+    "for (p0, p1), idx in merges.items():\n",
+    "    vocab[idx] = vocab[p0] + vocab[p1]\n",
+    "\n",
+    "def decode(ids):\n",
+    "  # given ids (list of integers), return Python string\n",
+    "  tokens = b\"\".join(vocab[idx] for idx in ids)\n",
+    "  text = tokens.decode(\"utf-8\", errors=\"replace\")\n",
+    "  return text\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "True\n"
+     ]
+    }
+   ],
+   "source": [
+    "text2 = decode(encode(text))\n",
+    "print(text2 == text)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "0: \u0000\n",
+      "1: \u0001\n",
+      "2: \u0002\n",
+      "3: \u0003\n",
+      "4: \u0004\n",
+      "5: \u0005\n",
+      "6: \u0006\n",
+      "7: \u0007\n",
+      "8:\n",
+      "9: \t\n",
+      "10: \n",
+      "\n",
+      "11: \u000b\n",
+      "12: \f\n",
+      "13: \n",
+      "14: \u000e\n",
+      "15: \u000f\n",
+      "16: \u0010\n",
+      "17: \u0011\n",
+      "18: \u0012\n",
+      "19: \u0013\n",
+      "20: \u0014\n",
+      "21: \u0015\n",
+      "22: \u0016\n",
+      "23: \u0017\n",
+      "24: \u0018\n",
+      "25: \u0019\n",
+      "26: \u001a\n",
+      "27: \u001b\n",
+      "28: \u001c\n",
+      "29: \u001d\n",
+      "30: \u001e\n",
+      "31: \u001f\n",
+      "32:  \n",
+      "33: !\n",
+      "34: \"\n",
+      "35: #\n",
+      "36: $\n",
+      "37: %\n",
+      "38: &\n",
+      "39: '\n",
+      "40: (\n",
+      "41: )\n",
+      "42: *\n",
+      "43: +\n",
+      "44: ,\n",
+      "45: -\n",
+      "46: .\n",
+      "47: /\n",
+      "48: 0\n",
+      "49: 1\n",
+      "50: 2\n",
+      "51: 3\n",
+      "52: 4\n",
+      "53: 5\n",
+      "54: 6\n",
+      "55: 7\n",
+      "56: 8\n",
+      "57: 9\n",
+      "58: :\n",
+      "59: ;\n",
+      "60: <\n",
+      "61: =\n",
+      "62: >\n",
+      "63: ?\n",
+      "64: @\n",
+      "65: A\n",
+      "66: B\n",
+      "67: C\n",
+      "68: D\n",
+      "69: E\n",
+      "70: F\n",
+      "71: G\n",
+      "72: H\n",
+      "73: I\n",
+      "74: J\n",
+      "75: K\n",
+      "76: L\n",
+      "77: M\n",
+      "78: N\n",
+      "79: O\n",
+      "80: P\n",
+      "81: Q\n",
+      "82: R\n",
+      "83: S\n",
+      "84: T\n",
+      "85: U\n",
+      "86: V\n",
+      "87: W\n",
+      "88: X\n",
+      "89: Y\n",
+      "90: Z\n",
+      "91: [\n",
+      "92: \\\n",
+      "93: ]\n",
+      "94: ^\n",
+      "95: _\n",
+      "96: `\n",
+      "97: a\n",
+      "98: b\n",
+      "99: c\n",
+      "100: d\n",
+      "101: e\n",
+      "102: f\n",
+      "103: g\n",
+      "104: h\n",
+      "105: i\n",
+      "106: j\n",
+      "107: k\n",
+      "108: l\n",
+      "109: m\n",
+      "110: n\n",
+      "111: o\n",
+      "112: p\n",
+      "113: q\n",
+      "114: r\n",
+      "115: s\n",
+      "116: t\n",
+      "117: u\n",
+      "118: v\n",
+      "119: w\n",
+      "120: x\n",
+      "121: y\n",
+      "122: z\n",
+      "123: {\n",
+      "124: |\n",
+      "125: }\n",
+      "126: ~\n",
+      "127: \n",
+      "128: �\n",
+      "129: �\n",
+      "130: �\n",
+      "131: �\n",
+      "132: �\n",
+      "133: �\n",
+      "134: �\n",
+      "135: �\n",
+      "136: �\n",
+      "137: �\n",
+      "138: �\n",
+      "139: �\n",
+      "140: �\n",
+      "141: �\n",
+      "142: �\n",
+      "143: �\n",
+      "144: �\n",
+      "145: �\n",
+      "146: �\n",
+      "147: �\n",
+      "148: �\n",
+      "149: �\n",
+      "150: �\n",
+      "151: �\n",
+      "152: �\n",
+      "153: �\n",
+      "154: �\n",
+      "155: �\n",
+      "156: �\n",
+      "157: �\n",
+      "158: �\n",
+      "159: �\n",
+      "160: �\n",
+      "161: �\n",
+      "162: �\n",
+      "163: �\n",
+      "164: �\n",
+      "165: �\n",
+      "166: �\n",
+      "167: �\n",
+      "168: �\n",
+      "169: �\n",
+      "170: �\n",
+      "171: �\n",
+      "172: �\n",
+      "173: �\n",
+      "174: �\n",
+      "175: �\n",
+      "176: �\n",
+      "177: �\n",
+      "178: �\n",
+      "179: �\n",
+      "180: �\n",
+      "181: �\n",
+      "182: �\n",
+      "183: �\n",
+      "184: �\n",
+      "185: �\n",
+      "186: �\n",
+      "187: �\n",
+      "188: �\n",
+      "189: �\n",
+      "190: �\n",
+      "191: �\n",
+      "192: �\n",
+      "193: �\n",
+      "194: �\n",
+      "195: �\n",
+      "196: �\n",
+      "197: �\n",
+      "198: �\n",
+      "199: �\n",
+      "200: �\n",
+      "201: �\n",
+      "202: �\n",
+      "203: �\n",
+      "204: �\n",
+      "205: �\n",
+      "206: �\n",
+      "207: �\n",
+      "208: �\n",
+      "209: �\n",
+      "210: �\n",
+      "211: �\n",
+      "212: �\n",
+      "213: �\n",
+      "214: �\n",
+      "215: �\n",
+      "216: �\n",
+      "217: �\n",
+      "218: �\n",
+      "219: �\n",
+      "220: �\n",
+      "221: �\n",
+      "222: �\n",
+      "223: �\n",
+      "224: �\n",
+      "225: �\n",
+      "226: �\n",
+      "227: �\n",
+      "228: �\n",
+      "229: �\n",
+      "230: �\n",
+      "231: �\n",
+      "232: �\n",
+      "233: �\n",
+      "234: �\n",
+      "235: �\n",
+      "236: �\n",
+      "237: �\n",
+      "238: �\n",
+      "239: �\n",
+      "240: �\n",
+      "241: �\n",
+      "242: �\n",
+      "243: �\n",
+      "244: �\n",
+      "245: �\n",
+      "246: �\n",
+      "247: �\n",
+      "248: �\n",
+      "249: �\n",
+      "250: �\n",
+      "251: �\n",
+      "252: �\n",
+      "253: �\n",
+      "254: �\n",
+      "255: �\n",
+      "256: �\n",
+      "257: �\n",
+      "258:  �\n",
+      "259: ा\n",
+      "260: ा�\n",
+      "261: ्\n",
+      "262: ्�\n",
+      "263: े\n",
+      "264: ी\n",
+      "265: र\n",
+      "266: ्य\n",
+      "267: ��\n",
+      "268: ि\n",
+      "269: ी �\n",
+      "270: ा �\n",
+      "271: ल\n",
+      "272: त\n",
+      "273: क\n",
+      "274: े �\n",
+      "275: ्या�\n",
+      "276: ण\n",
+      "277: ु\n",
+      "278: ो\n",
+      "279:  क\n",
+      "280: स\n",
+      "281: न\n",
+      "282: ार\n",
+      "283: म\n",
+      "284: ं�\n",
+      "285: ्र\n",
+      "286: व\n",
+      "287: ां�\n",
+      "288: ह\n",
+      "289: . �\n",
+      "290: , �\n",
+      "291: े�\n",
+      "292: ु�\n",
+      "293: ्या �\n",
+      "294: ध\n",
+      "295:  स\n",
+      "296: य\n",
+      "297: ू�\n",
+      "298: �र\n",
+      "299: ेल\n",
+      "300: �ह\n",
+      "301: ात\n",
+      "302: च\n",
+      "303: ो�\n",
+      "304: �हे\n",
+      "305: �्र\n",
+      "306: ाव\n",
+      "307: ान\n",
+      "308: ाम\n",
+      "309: र �\n",
+      "310: क्�\n",
+      "311: द\n",
+      "312: ्यात\n",
+      "313: त �\n",
+      "314: ाल\n",
+      "315: ांन\n",
+      "316: रण\n",
+      "317: ्याच\n",
+      "318: िक\n",
+      "319: ग\n",
+      "320: �स\n",
+      "321: श\n",
+      "322: र्�\n",
+      "323: ्ह\n",
+      "324: ाच\n",
+      "325: प\n",
+      "326: ंत\n",
+      "327: ज\n",
+      "328:  व\n",
+      "329: ास\n",
+      "330: ून\n",
+      "331: क्ष\n",
+      "332: ाग\n",
+      "333: ड\n",
+      "334:  �\n",
+      "335: ील\n",
+      "336: ध्य\n",
+      "337: �हे. �\n",
+      "338: �ि\n",
+      "339: ी क\n",
+      "340: स्�\n",
+      "341:  आ\n",
+      "342: े, �\n",
+      "343: े क\n",
+      "344: ाय\n",
+      "345: ीच\n",
+      "346: िल\n",
+      "347: ०\n",
+      "348:  त\n",
+      "349: �ा �\n",
+      "350:  म\n",
+      "351: ी स\n",
+      "352: �ो\n",
+      "353: ्व\n",
+      "354: ाह\n",
+      "355: ्यां�\n",
+      "356:  र\n",
+      "357:  ब\n",
+      "358: ुन\n",
+      "359: �िर\n",
+      "360: �िर्यात\n",
+      "361: ा पर\n",
+      "362: भ\n",
+      "363: ाख\n",
+      "364: ीन\n",
+      "365: ्यान\n",
+      "366: गार\n",
+      "367: िम\n",
+      "368: ध्ये �\n",
+      "369: ट\n",
+      "370: �े�\n",
+      "371: ू\n",
+      "372: ंद\n",
+      "373:  करण\n",
+      "374: ांच\n",
+      "375: ेळ\n",
+      "376: ाठ\n",
+      "377: ित\n",
+      "378: घ\n",
+      "379: ामगार\n",
+      "380: �ेख\n",
+      "381: ी म\n",
+      "382: ी. �\n",
+      "383: ्थ\n",
+      "384:  अ\n",
+      "385: ळ\n",
+      "386: १\n",
+      "387: �ेखा पर\n",
+      "388: �ेखा परी\n",
+      "389: �ेखा परीक्ष\n",
+      "390:  केल\n",
+      "391:  प\n",
+      "392: ांना �\n",
+      "393: ाण\n",
+      "394: ी व\n",
+      "395: े स\n",
+      "396: े. �\n",
+      "397: ाज\n",
+      "398:  पर\n",
+      "399: ब\n",
+      "400: ोट\n",
+      "401: ाळ\n",
+      "402: ्ट\n",
+      "403: ृ\n",
+      "404: िय\n",
+      "405: स्त\n",
+      "406:  कर\n",
+      "407: ी त\n",
+      "408: �ोत\n",
+      "409: ष\n",
+      "410: ी अ\n",
+      "411: िस\n",
+      "412: �हेत\n",
+      "413: �ु�\n",
+      "414:  ग\n",
+      "415: ्यांच\n",
+      "416: ुर\n",
+      "417: �सल\n",
+      "418: ेश\n",
+      "419: क्र\n",
+      "420: े आ\n",
+      "421: ुड\n",
+      "422: ुडघ\n",
+      "423:  कामगार\n",
+      "424: ए\n",
+      "425:  २\n",
+      "426: े द\n",
+      "427: ीच्या �\n",
+      "428: ार �\n",
+      "429: �ाल\n",
+      "430: ी, �\n",
+      "431: ी न\n",
+      "432:  ज\n",
+      "433:  (\n",
+      "434:  आण\n",
+      "435: �हेत. �\n",
+      "436: फ\n",
+      "437:  ह\n",
+      "438: त्�\n",
+      "439: ोन\n",
+      "440: ्थान\n",
+      "441: ्थानिक\n",
+      "442:  श\n",
+      "443: मध्ये �\n",
+      "444:  या �\n",
+      "445: ा क\n",
+      "446: िल्ह\n",
+      "447:  य\n",
+      "448: क्क\n",
+      "449: ेव\n",
+      "450:  न\n",
+      "451: �ाग\n",
+      "452: िव\n",
+      "453: दार\n",
+      "454: ाद\n",
+      "455: ्ण\n",
+      "456: ाढ\n",
+      "457:  द\n",
+      "458: ा प्र\n",
+      "459: ंग\n",
+      "460:  केळ\n",
+      "461: र्च\n",
+      "462: ॉ\n",
+      "463: साय\n",
+      "464: ्याच्या �\n",
+      "465: �ेखा परीक्षक\n",
+      "466: ै\n",
+      "467: ्याचे �\n",
+      "468: न्�\n",
+      "469: े आहे. �\n",
+      "470:  कार\n",
+      "471: े म\n",
+      "472: ी य\n",
+      "473:  प्र\n",
+      "474: ोड\n",
+      "475: ोग\n",
+      "476: वि\n",
+      "477: ्युन\n",
+      "478: ोक\n",
+      "479: ख\n",
+      "480: ंत्र\n",
+      "481: ी ज\n",
+      "482: ्यास\n",
+      "483: क्रिय\n",
+      "484: ्थानिक कामगार\n",
+      "485:  ए\n",
+      "486: ोसाय\n",
+      "487: ोसायट\n",
+      "488:  २०\n",
+      "489: ार्�\n",
+      "490: ाध\n",
+      "491: ून �\n",
+      "492: ीत\n",
+      "493: ी र\n",
+      "494: �सत\n",
+      "495: ता �\n",
+      "496: ृत\n",
+      "497: ी केल\n",
+      "498: ्यानंत\n",
+      "499: �ि\n",
+      "500:  १\n",
+      "501: ुक\n",
+      "502: ाब\n",
+      "503: मू�\n",
+      "504: ले �\n",
+      "505: ा स\n",
+      "506: �हे.\n",
+      "507: ्युनिस\n",
+      "508: �े\n",
+      "509: ंद्र\n",
+      "510: ुग\n",
+      "511: ुग्ण\n",
+      "512: �ुडघ\n",
+      "513: कार\n",
+      "514: �ेखा परीक्षण\n",
+      "515: ूर\n",
+      "516: ा न\n",
+      "517: ीस\n",
+      "518: ंज\n",
+      "519: १�\n",
+      "520: ्हण\n",
+      "521: ेल्या �\n",
+      "522: र ज\n",
+      "523: ाश\n",
+      "524: ूम\n",
+      "525: , स\n",
+      "526:  आणि\n",
+      "527: ठ\n",
+      "528: ्यांच्या �\n",
+      "529: करण\n",
+      "530:  को\n",
+      "531: ांड\n",
+      "532: ेत �\n",
+      "533: ुट\n",
+      "534: ्यंत\n",
+      "535: त्त\n",
+      "536: ाड\n",
+      "537: ेथ\n",
+      "538: �सून\n",
+      "539: �्युनिस\n",
+      "540:  आहे. �\n",
+      "541: ौ\n",
+      "542: े व\n",
+      "543: े प\n",
+      "544: विण\n",
+      "545: ाप\n",
+      "546: ेंद्र\n",
+      "547: ी ल\n",
+      "548: ण्यात\n",
+      "549: �श\n",
+      "550: �ण\n",
+      "551: स्त्र\n",
+      "552: स्त्रक्रिय\n",
+      "553: श्�\n",
+      "554: श्च\n",
+      "555: ्यातील\n",
+      "556: मीन\n",
+      "557: �िर्यातदार\n",
+      "558: ित �\n",
+      "559: ारण\n",
+      "560: ावर\n",
+      "561:  वि\n",
+      "562: े दाख\n",
+      "563: ावल\n",
+      "564: र्भ\n",
+      "565: राव\n",
+      "566: �र �\n",
+      "567: ागण\n",
+      "568: �ड\n",
+      "569:  कोट\n",
+      "570: ुप\n",
+      "571: ुपय\n",
+      "572:  झाल\n",
+      "573: ात �\n",
+      "574: ांनी �\n",
+      "575: ाठी �\n",
+      "576: नि\n",
+      "577: ेत\n",
+      "578: ें�\n",
+      "579: ा उ\n",
+      "580: ीव\n",
+      "581: ी.\n",
+      "582: ॅ\n",
+      "583: ंप\n",
+      "584: �ुद\n",
+      "585: ्द\n",
+      "586: ा आहे. �\n",
+      "587:  घ\n",
+      "588: ाष\n",
+      "589: ीं�\n",
+      "590: र व\n",
+      "591:  ल\n",
+      "592:  भाग\n",
+      "593: सल\n",
+      "594: ा व\n",
+      "595: ुरू\n",
+      "596:  उ\n",
+      "597: िश\n",
+      "598: ुद\n",
+      "599:  ख\n",
+      "600: �ेथ\n",
+      "601: ्याप\n",
+      "602: ा त\n",
+      "603: ांम\n",
+      "604: े,\n",
+      "605: ी द\n",
+      "606: ्याची अ\n",
+      "607: त्या�\n",
+      "608: ेच\n",
+      "609: ्यांन\n",
+      "610: ्याने �\n",
+      "611: º\n",
+      "612: ºय\n",
+      "613: �्रकरण\n",
+      "614: जुर\n",
+      "615:  कोर\n",
+      "616:  कोरोन\n",
+      "617:  काम\n",
+      "618: ्प\n",
+      "619:  सह\n",
+      "620:  सहकार\n",
+      "621: ्या\n",
+      "622:  ते\n",
+      "623: ीत �\n",
+      "624: ी आहे. �\n",
+      "625:  सोसायट\n",
+      "626: भास\n",
+      "627: भासद\n",
+      "628: र्व\n",
+      "629: ांत\n",
+      "630:  करण्याच\n",
+      "631: े केल\n",
+      "632: �ोती. �\n",
+      "633: ़\n",
+      "634: रव\n",
+      "635: ्यव\n",
+      "636: �्रम\n",
+      "637: �्रमाण\n",
+      "638: ी असत\n",
+      "639: र्म\n",
+      "640: ी सम\n",
+      "641: �ह\n",
+      "642: िन\n",
+      "643: ंध\n",
+      "644: �ोते. �\n",
+      "645: , त\n",
+      "646: ), �\n",
+      "647: ी (\n",
+      "648: ुण\n",
+      "649: न्स\n",
+      "650: र आ\n",
+      "651: ६\n",
+      "652: ५\n",
+      "653: पर\n",
+      "654: ानग\n",
+      "655: ाष्ट\n",
+      "656: ७\n",
+      "657: रात\n",
+      "658: ाच्या �\n",
+      "659: �ेव\n",
+      "660: ी श\n",
+      "661: मूद\n",
+      "662: ात्र\n",
+      "663: पास\n",
+      "664: ीची �\n",
+      "665: �ाह\n",
+      "666:  आल\n",
+      "667: �िल्ह\n",
+      "668: �ुळ\n",
+      "669: िच\n",
+      "670: णार\n",
+      "671: ी प\n",
+      "672: णार �\n",
+      "673: \n",
+      "\n",
+      "\n",
+      "674: ा द\n",
+      "675: ोल\n",
+      "676: लेल\n",
+      "677:  सर\n",
+      "678: धील\n",
+      "679: डक\n",
+      "680:  '\n",
+      "681: शि\n",
+      "682: ्ध\n",
+      "683: ात. �\n",
+      "684: द्य\n",
+      "685: �ुग्ण\n",
+      "686:  केंद्र\n",
+      "687: ्याची अक्क\n",
+      "688: ्याची अक्कल\n",
+      "689:  गुडघ\n",
+      "690: ाचा �\n",
+      "691: त्यार\n",
+      "692: त्यारो�\n",
+      "693: त्यारोपण\n",
+      "694: ी ग\n",
+      "695: ण्याच\n",
+      "696: र्ण\n",
+      "697: क्य\n",
+      "698: ाधिक\n",
+      "699: पी\n",
+      "700: �ोत �\n",
+      "701: ाºय\n",
+      "702: ाट\n",
+      "703:  एक\n",
+      "704:  एकर ज\n",
+      "705:  एकर जमीन\n",
+      "706: ्यक्�\n",
+      "707: ्यक्त\n",
+      "708: ्याम\n",
+      "709: �िर्यातक्ष\n",
+      "710: �िर्यातक्षम\n",
+      "711: ंटे\n",
+      "712: ंटेन\n",
+      "713: ंटेनर\n",
+      "714: ंटेनरमध्ये �\n",
+      "715: ंटेनरमध्ये भ\n",
+      "716: श्चिम\n",
+      "717: श्चिम ब\n",
+      "718: श्चिम बंग\n",
+      "719: श्चिम बंगाल\n",
+      "720:  परत �\n",
+      "721: �िर्यातदारांन\n",
+      "722: े कामगार\n",
+      "723: ्थानिक कामगारांना �\n",
+      "724: ा प्राद\n",
+      "725: ा प्रादु\n",
+      "726: ा प्रादुर्भ\n",
+      "727: ा प्रादुर्भाव\n",
+      "728: ाखळ\n",
+      "729: ून त\n",
+      "730: �र्च\n",
+      "731: �च\n",
+      "732: �चए\n",
+      "733: �चएए\n",
+      "734: �चएएल\n",
+      "735: ्ल\n",
+      "736:  २००\n",
+      "737:  या क\n",
+      "738: ्याच्या क\n",
+      "739: भाग\n",
+      "740: ाने �\n",
+      "741: ांनी त\n",
+      "742: ांवर �\n",
+      "743: ुन्ह\n",
+      "744: ुन्हे दाख\n",
+      "745: ुन्हे दाखल\n",
+      "746: ी मागण\n",
+      "747: ्याकड\n",
+      "748: ी रुपय\n",
+      "749: ांनी क\n",
+      "750: ाई\n",
+      "751: ष्ट\n",
+      "752: �ण\n",
+      "753: �से स\n",
+      "754: ासाठी �\n",
+      "755: ी नव\n",
+      "756:  कृत\n",
+      "757: ी समित\n",
+      "758: ण त\n",
+      "759: ांच्या �\n",
+      "760: ोव\n",
+      "761:  जिल्ह\n",
+      "762: ा उप\n",
+      "763: मो\n",
+      "764: हव\n",
+      "765: हवाल\n",
+      "766: भूम\n",
+      "767: भूमीव\n",
+      "768: नाश\n",
+      "769: नाशिक\n",
+      "770: अ\n",
+      "771: ोळ\n",
+      "772: ॅण\n",
+      "773: ॅण्�\n",
+      "774: ॅण्ड\n",
+      "775: ुळ\n",
+      "776: ोट���स\n",
+      "777: ी. स\n",
+      "778: ंब\n",
+      "779: ंभ\n",
+      "780: �ुद्द\n",
+      "781: ंच\n",
+      "782: क्कम\n",
+      "783: वानग\n",
+      "784:  ऑ\n",
+      "785: ाष्ट्र\n",
+      "786: मध्य\n",
+      "787:  गु\n",
+      "788:  गुंत\n",
+      "789:  गुंतव\n",
+      "790:  गुंतवण\n",
+      "791: ावर �\n",
+      "792: र्ष\n",
+      "793: े न\n",
+      "794:  नाह\n",
+      "795:  लाख\n",
+      "796:  परत\n",
+      "797: सार\n",
+      "798: ोग्य\n",
+      "799: री\n",
+      "800: त्र\n",
+      "801:  केले �\n",
+      "802:  करण्यात\n",
+      "803:  सुरू\n",
+      "804: ्यामुळ\n",
+      "805: ागत\n",
+      "806: ा ल\n",
+      "807: �सल्याच\n",
+      "808:  ट\n",
+      "809: धान\n",
+      "810: ००\n",
+      "811: १९\n",
+      "812: �ूम\n",
+      "813: �ूमध्य\n",
+      "814: ुद्र\n",
+      "815:  १०\n",
+      "816: ी �\n",
+      "817: �ेथील\n",
+      "818: मान\n",
+      "819: ७�\n",
+      "820: �ुन\n",
+      "821: �ेक\n",
+      "822: े प्र\n",
+      "823:  इ\n",
+      "824: ुख\n",
+      "825: �क\n",
+      "826: ली �\n",
+      "827: ी घ\n",
+      "828: ाचे �\n",
+      "829: ुस्�\n",
+      "830: ीठ\n",
+      "831: ोम\n",
+      "832: न व\n",
+      "833: ुश\n",
+      "834: ैल\n",
+      "835:  आहेत. �\n",
+      "836: �ल\n",
+      "837: �लिव\n",
+      "838: �लिव्ह\n",
+      "839: �ळ\n",
+      "840: विणे, �\n",
+      "841: ा, �\n",
+      "842: �ष\n",
+      "843: ोह\n",
+      "844: ीय\n",
+      "845: ांस\n",
+      "846:  वाढ\n",
+      "847: ी असल\n",
+      "848: ुटण्यात\n",
+      "849: ा ज\n",
+      "850: . त\n",
+      "851:  म्हण\n",
+      "852:  खर्च\n",
+      "853: ांची �\n",
+      "854: ुढ\n",
+      "855: ासन\n",
+      "856:  शस्त्रक्रिय\n",
+      "857: �र\n",
+      "858: �िय\n",
+      "859: �स्त्रक्रिय\n",
+      "860: रक\n",
+      "861: वड\n",
+      "862: ्यानंतर �\n",
+      "863: ींन\n",
+      "864:  स्व\n",
+      "865: �ाम\n",
+      "866: ीड\n",
+      "867: �रंत\n",
+      "868: �रंतु\n",
+      "869: �सल्याने �\n",
+      "870:  कराव\n",
+      "871: ण्यास\n",
+      "872:  राज\n",
+      "873:  राठ\n",
+      "874:  राठोड\n",
+      "875: वार\n",
+      "876:  -\n",
+      "877: रो\n",
+      "878: रोध\n",
+      "879: �्यांच्या �\n",
+      "880:  कॉ\n",
+      "881: ि क\n",
+      "882: ंटेनरमध्ये भरण\n",
+      "883: ्यात परत �\n",
+      "884: ी, अश\n",
+      "885:  केळी �\n",
+      "886: �िर्यातदारांनी केल\n",
+      "887: े काम\n",
+      "888: �ाख\n",
+      "889: डच\n",
+      "890: डचण\n",
+      "891: राज\n",
+      "892:  कोरोना प्रादुर्भाव\n",
+      "893: ्यामध्ये �\n",
+      "894:  स्थानिक कामगारांना �\n",
+      "895: �िर्यात स\n",
+      "896: �िर्यात साखळ\n",
+      "897: �िर्यात साखळी\n",
+      "898:  होत �\n",
+      "899: �्रत\n",
+      "900: ई\n",
+      "901:  सहकारी स\n",
+      "902:  २००१\n",
+      "903:  २००१ ते\n",
+      "904:  २००१ ते २०\n",
+      "905: ११\n",
+      "906:  या काल\n",
+      "907:  या कालाव\n",
+      "908:  या कालावध\n",
+      "909: ीत लेखा परीक्षण\n",
+      "910:  सहकार वि\n",
+      "911:  सहकार विभाग\n",
+      "912: �ेखा परीक्षकांना �\n",
+      "913: �ारण\n",
+      "914: �ारणे दाख\n",
+      "915: �ारणे दाखव\n",
+      "916: �ारणे दाखवा न\n",
+      "917: ोटीस\n",
+      "918: ोटीस ब\n",
+      "919: ोटीस बज\n",
+      "920: ी आहे. या �\n",
+      "921: ीच्या स\n",
+      "922: भासदांनी त\n",
+      "923:  वार्�\n",
+      "924:  वार्ष\n",
+      "925:  वार्षिक\n",
+      "926:  सर्व\n",
+      "927:  ठ\n",
+      "928: �ेखा परीक्षकांवर �\n",
+      "929: �ेखा परीक्षकांवर ग\n",
+      "930: �ेखा परीक्षकांव�� गुन्हे दाखल\n",
+      "931: �चएएल सोसायट\n",
+      "932: य़\n",
+      "933: ी रुपयांच\n",
+      "934: ा ग\n",
+      "935: ैरव\n",
+      "936: ैरव्यव\n",
+      "937: ैरव्यवह\n",
+      "938: ार झाल\n",
+      "939: न्न\n",
+      "940: काळ\n",
+      "941: ायद\n",
+      "942: �्रमाणे �\n",
+      "943:  कारव\n",
+      "944:  कारवाई\n",
+      "945: �णि\n",
+      "946: ांचे म\n",
+      "947: ांचे म्हण\n",
+      "948: ांचे म्हणण\n",
+      "949: ांचे म्हणणे आहे. �\n",
+      "950: ेलेल्या �\n",
+      "951: ंम\n",
+      "952: लब\n",
+      "953: णी क\n",
+      "954: ी नवनि\n",
+      "955: ी नवनिर्म\n",
+      "956: ी नवनिर्माण\n",
+      "957: ी नवनिर्माण कृत\n",
+      "958: ी नवनिर्माण कृती समित\n",
+      "959: वी\n",
+      "960: िद\n",
+      "961: े य\n",
+      "962: ांच्या न\n",
+      "963: ा उपनि\n",
+      "964: ा उपनिब\n",
+      "965: ा उपनिबंध\n",
+      "966: ा उपनिबंधक\n",
+      "967: र जिल्ह\n",
+      "968: ा य\n",
+      "969: ा यांनी �\n",
+      "970: �ान\n",
+      "971: �ानन\n",
+      "972: ्वभूमीव\n",
+      "973: ार ब\n",
+      "974: �र\n",
+      "975: गर\n",
+      "976: �ॅण्ड\n",
+      "977: �ॅण्ड क\n",
+      "978: �ॅण्ड कंप\n",
+      "979: �ॅण्ड कंपन\n",
+      "980: �ॅण्ड कंपनी (\n",
+      "981: ुणे\n",
+      "982:  सं�\n",
+      "983: �र\n",
+      "984: ा ब\n",
+      "985: ्या आहेत. �\n",
+      "986: ाहित\n",
+      "987:  समो\n",
+      "988:  समोर आ\n",
+      "989:  समोर आल\n",
+      "990: ीर �\n",
+      "991: ल्�\n",
+      "992: ंड\n",
+      "993: ाने\n",
+      "994: ५ कोट\n",
+      "995: ी रक्कम\n",
+      "996:  ऑफ\n",
+      "997:  मह\n",
+      "998: ाराष्ट्र\n",
+      "999:  गुंतवणुक\n"
+     ]
+    }
+   ],
+   "source": [
+    "for token_id in vocab:\n",
+    "    print(f\"{token_id}: {vocab[token_id].decode('utf-8', errors='replace')}\")\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "0: \u0000\n",
+      "1: \u0001\n",
+      "2: \u0002\n",
+      "3: \u0003\n",
+      "4: \u0004\n",
+      "5: \u0005\n",
+      "6: \u0006\n",
+      "7: \u0007\n",
+      "8:\n",
+      "9: \t\n",
+      "10: \n",
+      "\n",
+      "11: \u000b\n",
+      "12: \f\n",
+      "13: \n",
+      "14: \u000e\n",
+      "15: \u000f\n",
+      "16: \u0010\n",
+      "17: \u0011\n",
+      "18: \u0012\n",
+      "19: \u0013\n",
+      "20: \u0014\n",
+      "21: \u0015\n",
+      "22: \u0016\n",
+      "23: \u0017\n",
+      "24: \u0018\n",
+      "25: \u0019\n",
+      "26: \u001a\n",
+      "27: \u001b\n",
+      "28: \u001c\n",
+      "29: \u001d\n",
+      "30: \u001e\n",
+      "31: \u001f\n",
+      "32:  \n",
+      "33: !\n",
+      "34: \"\n",
+      "35: #\n",
+      "36: $\n",
+      "37: %\n",
+      "38: &\n",
+      "39: '\n",
+      "40: (\n",
+      "41: )\n",
+      "42: *\n",
+      "43: +\n",
+      "44: ,\n",
+      "45: -\n",
+      "46: .\n",
+      "47: /\n",
+      "48: 0\n",
+      "49: 1\n",
+      "50: 2\n",
+      "51: 3\n",
+      "52: 4\n",
+      "53: 5\n",
+      "54: 6\n",
+      "55: 7\n",
+      "56: 8\n",
+      "57: 9\n",
+      "58: :\n",
+      "59: ;\n",
+      "60: <\n",
+      "61: =\n",
+      "62: >\n",
+      "63: ?\n",
+      "64: @\n",
+      "65: A\n",
+      "66: B\n",
+      "67: C\n",
+      "68: D\n",
+      "69: E\n",
+      "70: F\n",
+      "71: G\n",
+      "72: H\n",
+      "73: I\n",
+      "74: J\n",
+      "75: K\n",
+      "76: L\n",
+      "77: M\n",
+      "78: N\n",
+      "79: O\n",
+      "80: P\n",
+      "81: Q\n",
+      "82: R\n",
+      "83: S\n",
+      "84: T\n",
+      "85: U\n",
+      "86: V\n",
+      "87: W\n",
+      "88: X\n",
+      "89: Y\n",
+      "90: Z\n",
+      "91: [\n",
+      "92: \\\n",
+      "93: ]\n",
+      "94: ^\n",
+      "95: _\n",
+      "96: `\n",
+      "97: a\n",
+      "98: b\n",
+      "99: c\n",
+      "100: d\n",
+      "101: e\n",
+      "102: f\n",
+      "103: g\n",
+      "104: h\n",
+      "105: i\n",
+      "106: j\n",
+      "107: k\n",
+      "108: l\n",
+      "109: m\n",
+      "110: n\n",
+      "111: o\n",
+      "112: p\n",
+      "113: q\n",
+      "114: r\n",
+      "115: s\n",
+      "116: t\n",
+      "117: u\n",
+      "118: v\n",
+      "119: w\n",
+      "120: x\n",
+      "121: y\n",
+      "122: z\n",
+      "123: {\n",
+      "124: |\n",
+      "125: }\n",
+      "126: ~\n",
+      "127: \n",
+      "128: <byte 128>\n",
+      "129: <byte 129>\n",
+      "130: <byte 130>\n",
+      "131: <byte 131>\n",
+      "132: <byte 132>\n",
+      "133: <byte 133>\n",
+      "134: <byte 134>\n",
+      "135: <byte 135>\n",
+      "136: <byte 136>\n",
+      "137: <byte 137>\n",
+      "138: <byte 138>\n",
+      "139: <byte 139>\n",
+      "140: <byte 140>\n",
+      "141: <byte 141>\n",
+      "142: <byte 142>\n",
+      "143: <byte 143>\n",
+      "144: <byte 144>\n",
+      "145: <byte 145>\n",
+      "146: <byte 146>\n",
+      "147: <byte 147>\n",
+      "148: <byte 148>\n",
+      "149: <byte 149>\n",
+      "150: <byte 150>\n",
+      "151: <byte 151>\n",
+      "152: <byte 152>\n",
+      "153: <byte 153>\n",
+      "154: <byte 154>\n",
+      "155: <byte 155>\n",
+      "156: <byte 156>\n",
+      "157: <byte 157>\n",
+      "158: <byte 158>\n",
+      "159: <byte 159>\n",
+      "160: <byte 160>\n",
+      "161: <byte 161>\n",
+      "162: <byte 162>\n",
+      "163: <byte 163>\n",
+      "164: <byte 164>\n",
+      "165: <byte 165>\n",
+      "166: <byte 166>\n",
+      "167: <byte 167>\n",
+      "168: <byte 168>\n",
+      "169: <byte 169>\n",
+      "170: <byte 170>\n",
+      "171: <byte 171>\n",
+      "172: <byte 172>\n",
+      "173: <byte 173>\n",
+      "174: <byte 174>\n",
+      "175: <byte 175>\n",
+      "176: <byte 176>\n",
+      "177: <byte 177>\n",
+      "178: <byte 178>\n",
+      "179: <byte 179>\n",
+      "180: <byte 180>\n",
+      "181: <byte 181>\n",
+      "182: <byte 182>\n",
+      "183: <byte 183>\n",
+      "184: <byte 184>\n",
+      "185: <byte 185>\n",
+      "186: <byte 186>\n",
+      "187: <byte 187>\n",
+      "188: <byte 188>\n",
+      "189: <byte 189>\n",
+      "190: <byte 190>\n",
+      "191: <byte 191>\n",
+      "192: <byte 192>\n",
+      "193: <byte 193>\n",
+      "194: <byte 194>\n",
+      "195: <byte 195>\n",
+      "196: <byte 196>\n",
+      "197: <byte 197>\n",
+      "198: <byte 198>\n",
+      "199: <byte 199>\n",
+      "200: <byte 200>\n",
+      "201: <byte 201>\n",
+      "202: <byte 202>\n",
+      "203: <byte 203>\n",
+      "204: <byte 204>\n",
+      "205: <byte 205>\n",
+      "206: <byte 206>\n",
+      "207: <byte 207>\n",
+      "208: <byte 208>\n",
+      "209: <byte 209>\n",
+      "210: <byte 210>\n",
+      "211: <byte 211>\n",
+      "212: <byte 212>\n",
+      "213: <byte 213>\n",
+      "214: <byte 214>\n",
+      "215: <byte 215>\n",
+      "216: <byte 216>\n",
+      "217: <byte 217>\n",
+      "218: <byte 218>\n",
+      "219: <byte 219>\n",
+      "220: <byte 220>\n",
+      "221: <byte 221>\n",
+      "222: <byte 222>\n",
+      "223: <byte 223>\n",
+      "224: <byte 224>\n",
+      "225: <byte 225>\n",
+      "226: <byte 226>\n",
+      "227: <byte 227>\n",
+      "228: <byte 228>\n",
+      "229: <byte 229>\n",
+      "230: <byte 230>\n",
+      "231: <byte 231>\n",
+      "232: <byte 232>\n",
+      "233: <byte 233>\n",
+      "234: <byte 234>\n",
+      "235: <byte 235>\n",
+      "236: <byte 236>\n",
+      "237: <byte 237>\n",
+      "238: <byte 238>\n",
+      "239: <byte 239>\n",
+      "240: <byte 240>\n",
+      "241: <byte 241>\n",
+      "242: <byte 242>\n",
+      "243: <byte 243>\n",
+      "244: <byte 244>\n",
+      "245: <byte 245>\n",
+      "246: <byte 246>\n",
+      "247: <byte 247>\n",
+      "248: <byte 248>\n",
+      "249: <byte 249>\n",
+      "250: <byte 250>\n",
+      "251: <byte 251>\n",
+      "252: <byte 252>\n",
+      "253: <byte 253>\n",
+      "254: <byte 254>\n",
+      "255: <byte 255>\n",
+      "259: ा\n",
+      "261: ्\n",
+      "263: े\n",
+      "264: ी\n",
+      "265: र\n",
+      "266: ्य\n",
+      "268: ि\n",
+      "271: ल\n",
+      "272: त\n",
+      "273: क\n",
+      "276: ण\n",
+      "277: ु\n",
+      "278: ो\n",
+      "279:  क\n",
+      "280: स\n",
+      "281: न\n",
+      "282: ार\n",
+      "283: म\n",
+      "285: ्र\n",
+      "286: व\n",
+      "288: ह\n",
+      "294: ध\n",
+      "295:  स\n",
+      "296: य\n",
+      "299: ेल\n",
+      "301: ात\n",
+      "302: च\n",
+      "306: ाव\n",
+      "307: ान\n",
+      "308: ाम\n",
+      "311: द\n",
+      "312: ्यात\n",
+      "314: ाल\n",
+      "315: ांन\n",
+      "316: रण\n",
+      "317: ्याच\n",
+      "318: िक\n",
+      "319: ग\n",
+      "321: श\n",
+      "323: ्ह\n",
+      "324: ाच\n",
+      "325: प\n",
+      "326: ंत\n",
+      "327: ज\n",
+      "328:  व\n",
+      "329: ास\n",
+      "330: ून\n",
+      "331: क्ष\n",
+      "332: ाग\n",
+      "333: ड\n",
+      "335: ील\n",
+      "336: ध्य\n",
+      "339: ी क\n",
+      "341:  आ\n",
+      "343: े क\n",
+      "344: ाय\n",
+      "345: ीच\n",
+      "346: िल\n",
+      "347: ०\n",
+      "348:  त\n",
+      "350:  म\n",
+      "351: ी स\n",
+      "353: ्व\n",
+      "354: ाह\n",
+      "356:  र\n",
+      "357:  ब\n",
+      "358: ुन\n",
+      "361: ा पर\n",
+      "362: भ\n",
+      "363: ाख\n",
+      "364: ीन\n",
+      "365: ्यान\n",
+      "366: गार\n",
+      "367: िम\n",
+      "369: ट\n",
+      "371: ू\n",
+      "372: ंद\n",
+      "373:  करण\n",
+      "374: ांच\n",
+      "375: ेळ\n",
+      "376: ाठ\n",
+      "377: ित\n",
+      "378: घ\n",
+      "379: ामगार\n",
+      "381: ी म\n",
+      "383: ्थ\n",
+      "384:  अ\n",
+      "385: ळ\n",
+      "386: १\n",
+      "390:  केल\n",
+      "391:  प\n",
+      "393: ाण\n",
+      "394: ी व\n",
+      "395: े स\n",
+      "397: ाज\n",
+      "398:  पर\n",
+      "399: ब\n",
+      "400: ोट\n",
+      "401: ाळ\n",
+      "402: ्ट\n",
+      "403: ृ\n",
+      "404: िय\n",
+      "405: स्त\n",
+      "406:  कर\n",
+      "407: ी त\n",
+      "409: ष\n",
+      "410: ी अ\n",
+      "411: िस\n",
+      "414:  ग\n",
+      "415: ्यांच\n",
+      "416: ुर\n",
+      "418: ेश\n",
+      "419: क्र\n",
+      "420: े आ\n",
+      "421: ुड\n",
+      "422: ुडघ\n",
+      "423:  कामगार\n",
+      "424: ए\n",
+      "425:  २\n",
+      "426: े द\n",
+      "431: ी न\n",
+      "432:  ज\n",
+      "433:  (\n",
+      "434:  आण\n",
+      "436: फ\n",
+      "437:  ह\n",
+      "439: ोन\n",
+      "440: ्थान\n",
+      "441: ्थानिक\n",
+      "442:  श\n",
+      "445: ा क\n",
+      "446: िल्ह\n",
+      "447:  य\n",
+      "448: क्क\n",
+      "449: ेव\n",
+      "450:  न\n",
+      "452: िव\n",
+      "453: दार\n",
+      "454: ाद\n",
+      "455: ्ण\n",
+      "456: ाढ\n",
+      "457:  द\n",
+      "458: ा प्र\n",
+      "459: ंग\n",
+      "460:  केळ\n",
+      "461: र्च\n",
+      "462: ॉ\n",
+      "463: साय\n",
+      "466: ै\n",
+      "470:  कार\n",
+      "471: े म\n",
+      "472: ी य\n",
+      "473:  प्र\n",
+      "474: ोड\n",
+      "475: ोग\n",
+      "476: वि\n",
+      "477: ्युन\n",
+      "478: ोक\n",
+      "479: ख\n",
+      "480: ंत्र\n",
+      "481: ी ज\n",
+      "482: ्यास\n",
+      "483: क्रिय\n",
+      "484: ्थानिक कामगार\n",
+      "485:  ए\n",
+      "486: ोसाय\n",
+      "487: ोसायट\n",
+      "488:  २०\n",
+      "490: ाध\n",
+      "492: ीत\n",
+      "493: ी र\n",
+      "496: ृत\n",
+      "497: ी केल\n",
+      "498: ्यानंत\n",
+      "500:  १\n",
+      "501: ुक\n",
+      "502: ाब\n",
+      "505: ा स\n",
+      "507: ्युनिस\n",
+      "509: ंद्र\n",
+      "510: ुग\n",
+      "511: ुग्ण\n",
+      "513: कार\n",
+      "515: ूर\n",
+      "516: ा न\n",
+      "517: ीस\n",
+      "518: ंज\n",
+      "520: ्हण\n",
+      "522: र ज\n",
+      "523: ाश\n",
+      "524: ूम\n",
+      "525: , स\n",
+      "526:  आणि\n",
+      "527: ठ\n",
+      "529: करण\n",
+      "530:  को\n",
+      "531: ांड\n",
+      "533: ुट\n",
+      "534: ्यंत\n",
+      "535: त्त\n",
+      "536: ाड\n",
+      "537: ेथ\n",
+      "541: ौ\n",
+      "542: े व\n",
+      "543: े प\n",
+      "544: विण\n",
+      "545: ाप\n",
+      "546: ेंद्र\n",
+      "547: ी ल\n",
+      "548: ण्यात\n",
+      "551: स्त्र\n",
+      "552: स्त्रक्रिय\n",
+      "554: श्च\n",
+      "555: ्यातील\n",
+      "556: मीन\n",
+      "559: ारण\n",
+      "560: ावर\n",
+      "561:  वि\n",
+      "562: े दाख\n",
+      "563: ावल\n",
+      "564: र्भ\n",
+      "565: राव\n",
+      "567: ागण\n",
+      "569:  कोट\n",
+      "570: ुप\n",
+      "571: ुपय\n",
+      "572:  झाल\n",
+      "576: नि\n",
+      "577: ेत\n",
+      "579: ा उ\n",
+      "580: ीव\n",
+      "581: ी.\n",
+      "582: ॅ\n",
+      "583: ंप\n",
+      "585: ्द\n",
+      "587:  घ\n",
+      "588: ाष\n",
+      "590: र व\n",
+      "591:  ल\n",
+      "592:  भाग\n",
+      "593: सल\n",
+      "594: ा व\n",
+      "595: ुरू\n",
+      "596:  उ\n",
+      "597: िश\n",
+      "598: ुद\n",
+      "599:  ख\n",
+      "601: ्याप\n",
+      "602: ा त\n",
+      "603: ांम\n",
+      "604: े,\n",
+      "605: ी द\n",
+      "606: ्याची अ\n",
+      "608: ेच\n",
+      "609: ्यांन\n",
+      "611: º\n",
+      "612: ºय\n",
+      "614: जुर\n",
+      "615:  कोर\n",
+      "616:  कोर��न\n",
+      "617:  काम\n",
+      "618: ्प\n",
+      "619:  सह\n",
+      "620:  सहकार\n",
+      "621: ्या\n",
+      "622:  ते\n",
+      "625:  सोसायट\n",
+      "626: भास\n",
+      "627: भासद\n",
+      "628: र्व\n",
+      "629: ांत\n",
+      "630:  करण्याच\n",
+      "631: े केल\n",
+      "633: ़\n",
+      "634: रव\n",
+      "635: ्यव\n",
+      "638: ी असत\n",
+      "639: र्म\n",
+      "640: ी सम\n",
+      "642: िन\n",
+      "643: ंध\n",
+      "645: , त\n",
+      "647: ी (\n",
+      "648: ुण\n",
+      "649: न्स\n",
+      "650: र आ\n",
+      "651: ६\n",
+      "652: ५\n",
+      "653: पर\n",
+      "654: ानग\n",
+      "655: ाष्ट\n",
+      "656: ७\n",
+      "657: रात\n",
+      "660: ी श\n",
+      "661: मूद\n",
+      "662: ात्र\n",
+      "663: पास\n",
+      "666:  आल\n",
+      "669: िच\n",
+      "670: णार\n",
+      "671: ी प\n",
+      "673: \n",
+      "\n",
+      "\n",
+      "674: ा द\n",
+      "675: ोल\n",
+      "676: लेल\n",
+      "677:  सर\n",
+      "678: धील\n",
+      "679: डक\n",
+      "680:  '\n",
+      "681: शि\n",
+      "682: ्ध\n",
+      "684: द्य\n",
+      "686:  केंद्र\n",
+      "687: ्याची अक्क\n",
+      "688: ्याची अक्कल\n",
+      "689:  गुडघ\n",
+      "691: त्यार\n",
+      "693: त्यारोपण\n",
+      "694: ी ग\n",
+      "695: ण्याच\n",
+      "696: र्ण\n",
+      "697: क्य\n",
+      "698: ाधिक\n",
+      "699: पी\n",
+      "701: ाºय\n",
+      "702: ाट\n",
+      "703:  एक\n",
+      "704:  एकर ज\n",
+      "705:  एकर जमीन\n",
+      "707: ्यक्त\n",
+      "708: ्याम\n",
+      "711: ंटे\n",
+      "712: ंटेन\n",
+      "713: ंटेनर\n",
+      "715: ंटेनरमध्ये भ\n",
+      "716: श्चिम\n",
+      "717: श्चिम ब\n",
+      "718: श्चिम बंग\n",
+      "719: श्चिम बंगाल\n",
+      "722: े कामगार\n",
+      "724: ा प्राद\n",
+      "725: ा प्रादु\n",
+      "726: ा प्रादुर्भ\n",
+      "727: ा प्रादुर्भाव\n",
+      "728: ाखळ\n",
+      "729: ून त\n",
+      "735: ्ल\n",
+      "736:  २००\n",
+      "737:  या क\n",
+      "738: ्याच्या क\n",
+      "739: भाग\n",
+      "741: ांनी त\n",
+      "743: ुन्ह\n",
+      "744: ुन्हे दाख\n",
+      "745: ुन्हे दाखल\n",
+      "746: ी मागण\n",
+      "747: ्याकड\n",
+      "748: ी रुपय\n",
+      "749: ांनी क\n",
+      "750: ाई\n",
+      "751: ष्ट\n",
+      "755: ी नव\n",
+      "756:  कृत\n",
+      "757: ी समित\n",
+      "758: ण त\n",
+      "760: ोव\n",
+      "761:  जिल्ह\n",
+      "762: ा उप\n",
+      "763: मो\n",
+      "764: हव\n",
+      "765: हवाल\n",
+      "766: भूम\n",
+      "767: भूमीव\n",
+      "768: नाश\n",
+      "769: नाशिक\n",
+      "770: अ\n",
+      "771: ोळ\n",
+      "772: ॅण\n",
+      "774: ॅण्ड\n",
+      "775: ुळ\n",
+      "776: ोटिस\n",
+      "777: ी. स\n",
+      "778: ंब\n",
+      "779: ंभ\n",
+      "781: ंच\n",
+      "782: क्कम\n",
+      "783: वानग\n",
+      "784:  ऑ\n",
+      "785: ाष्ट्र\n",
+      "786: मध्य\n",
+      "787:  गु\n",
+      "788:  गुंत\n",
+      "789:  गुंतव\n",
+      "790:  गुंतवण\n",
+      "792: र्ष\n",
+      "793: े न\n",
+      "794:  नाह\n",
+      "795:  लाख\n",
+      "796:  परत\n",
+      "797: सार\n",
+      "798: ोग्य\n",
+      "799: री\n",
+      "800: त्र\n",
+      "802:  करण्यात\n",
+      "803:  सुरू\n",
+      "804: ्यामुळ\n",
+      "805: ागत\n",
+      "806: ा ल\n",
+      "808:  ट\n",
+      "809: धान\n",
+      "810: ००\n",
+      "811: १९\n",
+      "814: ुद्र\n",
+      "815:  १०\n",
+      "818: मान\n",
+      "822: े प्र\n",
+      "823:  इ\n",
+      "824: ुख\n",
+      "827: ी घ\n",
+      "830: ीठ\n",
+      "831: ोम\n",
+      "832: न व\n",
+      "833: ुश\n",
+      "834: ैल\n",
+      "843: ोह\n",
+      "844: ीय\n",
+      "845: ांस\n",
+      "846:  वाढ\n",
+      "847: ी असल\n",
+      "848: ुटण्यात\n",
+      "849: ा ज\n",
+      "850: . त\n",
+      "851:  म्हण\n",
+      "852:  खर्च\n",
+      "854: ुढ\n",
+      "855: ासन\n",
+      "856:  शस्त्रक्रिय\n",
+      "860: रक\n",
+      "861: वड\n",
+      "863: ींन\n",
+      "864:  स्व\n",
+      "866: ीड\n",
+      "870:  कराव\n",
+      "871: ण्यास\n",
+      "872:  राज\n",
+      "873:  राठ\n",
+      "874:  राठोड\n",
+      "875: वार\n",
+      "876:  -\n",
+      "877: रो\n",
+      "878: रोध\n",
+      "880:  कॉ\n",
+      "881: ि क\n",
+      "882: ंटेनरमध्ये भरण\n",
+      "884: ी, अश\n",
+      "887: े काम\n",
+      "889: डच\n",
+      "890: डचण\n",
+      "891: राज\n",
+      "892:  कोरोना प्रादुर्भाव\n",
+      "900: ई\n",
+      "901:  सहकारी स\n",
+      "902:  २००१\n",
+      "903:  २००१ ते\n",
+      "904:  २००१ ते २०\n",
+      "905: ११\n",
+      "906:  या काल\n",
+      "907:  या कालाव\n",
+      "908:  या कालावध\n",
+      "909: ीत लेखा परीक्षण\n",
+      "910:  सहकार वि\n",
+      "911:  सहकार विभाग\n",
+      "917: ोटीस\n",
+      "918: ोटीस ब\n",
+      "919: ोटीस बज\n",
+      "921: ीच्या स\n",
+      "922: भासदांनी त\n",
+      "924:  वार्ष\n",
+      "925:  वार्षिक\n",
+      "926:  सर्व\n",
+      "927:  ठ\n",
+      "932: य़\n",
+      "933: ी रुपयांच\n",
+      "934: ा ग\n",
+      "935: ैरव\n",
+      "936: ैरव्यव\n",
+      "937: ैरव्यवह\n",
+      "938: ार झाल\n",
+      "939: न्न\n",
+      "940: काळ\n",
+      "941: ायद\n",
+      "943:  कारव\n",
+      "944:  कारवाई\n",
+      "946: ांचे म\n",
+      "947: ांचे म्हण\n",
+      "948: ांचे म्हणण\n",
+      "951: ंम\n",
+      "952: लब\n",
+      "953: णी क\n",
+      "954: ी नवनि\n",
+      "955: ी नवनिर्म\n",
+      "956: ी नवनिर्माण\n",
+      "957: ी नवनिर्माण कृत\n",
+      "958: ी नवनिर्माण कृती समित\n",
+      "959: वी\n",
+      "960: िद\n",
+      "961: े य\n",
+      "962: ांच्या न\n",
+      "963: ा उपनि\n",
+      "964: ा उपनिब\n",
+      "965: ा उपनिबंध\n",
+      "966: ा उपनिबंधक\n",
+      "967: र जिल्ह\n",
+      "968: ा य\n",
+      "972: ्वभूमीव\n",
+      "973: ार ब\n",
+      "975: गर\n",
+      "981: ुणे\n",
+      "984: ा ब\n",
+      "986: ाहित\n",
+      "987:  समो\n",
+      "988:  समोर आ\n",
+      "989:  समोर आल\n",
+      "992: ंड\n",
+      "993: ाने\n",
+      "994: ५ कोट\n",
+      "995: ी रक्कम\n",
+      "996:  ऑफ\n",
+      "997:  मह\n",
+      "998: ाराष्ट्र\n",
+      "999:  गुंतवणुक\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Print the vocab's values in devanagari\n",
+    "for idx, value in vocab.items():\n",
+    "    try:\n",
+    "        print(f\"{idx}: {value.decode('utf-8')}\")\n",
+    "    except UnicodeDecodeError:\n",
+    "        # Handle single bytes that aren't valid UTF-8\n",
+    "        if len(value) == 1:\n",
+    "            print(f\"{idx}: <byte {value[0]}>\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.11"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:131414a77a054d1f78c7e8716779f2c2746a642cc4b18912ce1d4d0aa18bd0fa
+size 48260675