Spaces:

qminh369
/

Final_Compression

Runtime error

App Files Files Community

qminh369 commited on May 15, 2024

Commit

26827a2

•

1 Parent(s): e9d670f

Upload 4 files

Browse files

Files changed (4) hide show

app.py +88 -0
core_utils_llmlingua2.py +149 -0
requirements.txt +5 -0
utils_llmlingua2_test.py +0 -0

app.py ADDED Viewed

	@@ -0,0 +1,88 @@

+import gradio as gr
+import json
+#from llmlingua import PromptCompressor
+from utils_llmlingua2_test import PromptCompressor
+import tiktoken
+compressors = {
+    "xlm-roberta": PromptCompressor(
+        #model_name="microsoft/llmlingua-2-xlm-roberta-large-meetingbank",
+        #model_name="qminh369/token-classification-llmlingua2-xlm-roberta-10k_merge_10_epoch_paper",
+        #model_name='qminh369/token-classification-llmlingua2-xlm-roberta-42k_merge_1_epoch',
+        model_name='qminh369/token-classification-llmlingua2-xlm-roberta-42k_merge_10_epoch',
+        use_llmlingua2=True,
+        device_map="cpu"
+    )
+}
+tokenizer = tiktoken.encoding_for_model("gpt-4")
+def compress(original_prompt, compression_rate, base_model="xlm-roberta", force_tokens = ['. ', ', '], chunk_end_tokens=['.', '\n']):
+    if '\\n' in force_tokens:
+        idx = force_tokens.index('\\n')
+        force_tokens[idx] = '\n'
+    compressor = compressors.get(base_model, compressors["xlm-roberta"])
+    results = compressor.compress_prompt_llmlingua2(
+            original_prompt,
+            rate=compression_rate,
+            force_tokens=force_tokens,
+            chunk_end_tokens=chunk_end_tokens,
+            return_word_label=True,
+            drop_consecutive=True,
+            force_reserve_digit=True,
+            )
+    compressed_prompt = results["compressed_prompt"]
+    n_word_compressed = len(tokenizer.encode(compressed_prompt))
+    word_sep = "\t\t|\t\t"
+    label_sep = " "
+    lines = results["fn_labeled_original_prompt"].split(word_sep)
+    preserved_tokens = []
+    for line in lines:
+        word, label = line.split(label_sep)
+        preserved_tokens.append((word, '+') if label == '1' else (word, None))
+    return compressed_prompt, preserved_tokens, n_word_compressed
+title = "LLMLingua-2"
+header = """# LLMLingua-2
+        """
+theme = "soft"
+css = """#anno-img .mask {opacity: 0.5; transition: all 0.2s ease-in-out;}
+            #anno-img .mask.active {opacity: 0.7}"""
+original_prompt_text = """"""
+with gr.Blocks(title=title, css=css) as app:
+    gr.Markdown(header)
+    with gr.Row():
+        with gr.Column(scale=3):
+            original_prompt = gr.Textbox(value=original_prompt_text, label="Original Prompt", lines=10, max_lines=10, interactive=True)
+            compressed_prompt = gr.Textbox(value='', label="Compressed Prompt", lines=10, max_lines=10, interactive=False)
+        with gr.Column(scale=1):
+            base_model = gr.Radio(["xlm-roberta"], label="Base Model", value="xlm-roberta", interactive=True)
+            force_tokens = gr.Dropdown(['\\n', '.', '!', '?', ','],
+                                       label="Tokens to Preserve",
+                                       value=['\\n', '.', '!', '?', ','],
+                                       multiselect=True,
+                                       interactive=True)
+            compression_rate = gr.Slider(minimum=0.1, maximum=1.0, step=0.1, value=0.7, label="Compression rate", info="after compr. / befor compr.", interactive=True)
+            n_word_original = gr.Textbox(lines=1, label="Original (GPT-4 Tokens)", interactive=False, value=len(tokenizer.encode(original_prompt_text)))
+            n_word_compressed = gr.Textbox(lines=1, label="Compressed (GPT-4 Tokens)", interactive=False)
+    button = gr.Button("⚡Click to Compress")
+    with gr.Accordion(label="Compression Details", open=False):
+        diff_text = gr.HighlightedText(label="Diff", combine_adjacent=False, show_legend=True, color_map={"+": "green"})
+    original_prompt.change(lambda x: len(tokenizer.encode(x)), inputs=[original_prompt], outputs=[n_word_original])
+    original_prompt.change(lambda x: ("", "", []), inputs=[original_prompt], outputs=[compressed_prompt, n_word_compressed, diff_text])
+    button.click(fn=compress,
+                 inputs=[original_prompt, compression_rate, base_model, force_tokens],
+                 outputs=[compressed_prompt, diff_text, n_word_compressed])
+app.queue(max_size=10, api_open=False).launch(show_api=False)

core_utils_llmlingua2.py ADDED Viewed

	@@ -0,0 +1,149 @@

+import os
+import random
+import string
+import numpy as np
+import torch
+from torch.utils.data import Dataset
+class TokenClfDataset(Dataset):     # Hàm tạo custom dataset
+    def __init__(
+        self,
+        texts,
+        max_len=512,    # 256 (phobert)  512 (xlm-roberta)
+        tokenizer=None,
+        model_name="m_bert",
+    ):
+        self.len = len(texts)
+        self.texts = texts
+        self.tokenizer = tokenizer
+        self.max_len = max_len
+        self.model_name = model_name
+        if "m_bert" in model_name:
+            self.cls_token = "[CLS]"
+            self.sep_token = "[SEP]"
+            self.unk_token = "[UNK]"
+            self.pad_token = "[PAD]"
+            self.mask_token = "[MASK]"
+        elif "xlm-roberta-large" in model_name:
+            self.bos_token = "<s>"
+            self.eos_token = "</s>"
+            self.sep_token = "</s>"
+            self.cls_token = "<s>"
+            self.unk_token = "<unk>"
+            self.pad_token = "<pad>"
+            self.mask_token = "<mask>"
+        elif "xlm-roberta" in model_name:
+            self.bos_token = "<s>"
+            self.eos_token = "</s>"
+            self.sep_token = "</s>"
+            self.cls_token = "<s>"
+            self.unk_token = "<unk>"
+            self.pad_token = "<pad>"
+            self.mask_token = "<mask>"
+        elif "phobert" in model_name:
+            self.bos_token = "<s>"
+            self.eos_token = "</s>"
+            self.sep_token = "</s>"
+            self.cls_token = "<s>"
+            self.unk_token = "<unk>"
+            self.pad_token = "<pad>"
+            self.mask_token = "<mask>"
+        #else: raise NotImplementedError()
+    def __getitem__(self, index):
+        text = self.texts[index]
+        tokenized_text = self.tokenizer.tokenize(text)
+        tokenized_text = (
+            [self.cls_token] + tokenized_text + [self.sep_token]
+        )  # add special tokens
+        if len(tokenized_text) > self.max_len:
+            tokenized_text = tokenized_text[: self.max_len]
+        else:
+            tokenized_text = tokenized_text + [
+                self.pad_token for _ in range(self.max_len - len(tokenized_text))
+            ]
+        attn_mask = [1 if tok != self.pad_token else 0 for tok in tokenized_text]
+        ids = self.tokenizer.convert_tokens_to_ids(tokenized_text)
+        return {
+            "ids": torch.tensor(ids, dtype=torch.long),
+            "mask": torch.tensor(attn_mask, dtype=torch.long),
+        }
+    def __len__(self):
+        return self.len
+def seed_everything(seed: int):
+    random.seed(seed)
+    os.environ["PYTHONHASHSEED"] = str(seed)
+    np.random.seed(seed)
+    torch.manual_seed(seed)
+    torch.cuda.manual_seed(seed)
+    torch.backends.cudnn.deterministic = True
+    torch.backends.cudnn.benchmark = False
+def is_begin_of_new_word(token, model_name, force_tokens, token_map):   # Thêm kí tự bắt đầu vào từ mới
+    if "m_bert" in model_name:
+        if token.lstrip("##") in force_tokens or token.lstrip("##") in set(
+            token_map.values()
+        ):
+            return True
+        return not token.startswith("##")
+    elif "xlm-roberta-large" in model_name:
+        #print("xlm-roberta-large")
+        if (
+            token in string.punctuation
+            or token in force_tokens
+            or token in set(token_map.values())
+        ):
+            return True
+        return token.startswith("▁")    # check xem token có bắt đầu bằng kí tự "_" hay ko  -> Trả về False
+    elif "xlm-roberta" in model_name:
+        #print("xlm-roberta-large")
+        if (
+            token in string.punctuation
+            or token in force_tokens
+            or token in set(token_map.values())
+        ):
+            return True
+        return token.startswith("▁")
+    elif "phobert" in model_name:
+        #print("minh phobert")
+        #print("xlm-roberta-large")
+        if (
+            token in string.punctuation     # điều kiện hoặc
+            or token in force_tokens
+            or token in set(token_map.values())
+        ):
+            return True
+        #return token.startswith("▁") #
+        #return not token.startswith("▁")
+        #return not token.startswith("@@")
+        return not token.endswith("@@")
+        #return token.startswith("@@")
+    #else: raise NotImplementedError()
+def replace_added_token(token, token_map):
+    for ori_token, new_token in token_map.items():
+        token = token.replace(new_token, ori_token)
+    return token
+def get_pure_token(token, model_name):  # hàm get pure token trả về token gốc (sau khi loại bỏ kí tự đặc biệt subword)
+    if "m_bert" in model_name:
+        return token.lstrip("##")
+    elif "xlm-roberta-large" in model_name:
+        return token.lstrip("▁")        # bỏ kí tự "_" ở phía bên trái của từ
+    elif "xlm-roberta" in model_name:
+        return token.lstrip("▁")        # bỏ kí tự "_" ở ph��a bên trái của từ
+    elif "phobert" in model_name:
+        #return token.lstrip("▁")
+        #return token.lstrip("@@")
+        return token.rstrip("@@")
+    # else: raise NotImplementedError()

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+gradio
+accelerate
+tiktoken
+nltk
+transformers

utils_llmlingua2_test.py ADDED Viewed

The diff for this file is too large to render. See raw diff