Spaces:

hpcgroup
/

perf-analysis-chat

Sleeping

Daniel Nichols commited on Sep 17, 2024

Commit

f6de56e

unverified ·

2 Parent(s): 090e2ae a36b415

Merge pull request #1 from parallelcodefoundry/error_handling

Files changed (3) hide show

requirements.txt CHANGED Viewed

@@ -1,4 +1,5 @@
 gradio==4.39.0
 hatchet==1.4.0
 google-generativeai==0.7.2
-openai==1.37.0

 gradio==4.39.0
 hatchet==1.4.0
 google-generativeai==0.7.2
+openai==1.37.0
+tiktoken==0.7.0

src/perfguru.py CHANGED Viewed

@@ -3,6 +3,7 @@ import json
 import os
 import datetime
 from itertools import zip_longest
 from models import select_random_model
 from rag import select_random_formatter
@@ -19,6 +20,26 @@ def code_upload(code_file_select):
         return gr.Button(interactive=True)
 def chat_with_llms(prompt, code_files, profile_file, profile_type):
     model1 = select_random_model()
     model2 = select_random_model()
@@ -32,7 +53,10 @@ def chat_with_llms(prompt, code_files, profile_file, profile_type):
     if formatted1 is None or formatted2 is None:
         error_helper("Failed to format prompt. Please try again.")
     response1 = model1.get_response(formatted1)
     response2 = model2.get_response(formatted2)
@@ -161,4 +185,4 @@ with gr.Blocks(css=".not-voted p { color: black; } .voted p { color: green; } .r
 # Launch the Gradio interface
 if __name__ == '__main__':
-    interface.launch(share=True)

 import os
 import datetime
 from itertools import zip_longest
+import tiktoken
 from models import select_random_model
 from rag import select_random_formatter
         return gr.Button(interactive=True)
+def token_limit_getter(model: str) -> int:
+    with open("token_limits.json", "r") as f:
+        token_limits = json.load(f)
+    if model in token_limits:
+        return token_limits[model]
+    return int(5e6)
+def check_length(text, model):
+    if model.name.startswith("gpt"):
+        encoder = lambda s: len(tiktoken.encoding_for_model(model.name).encode(text))
+    else:
+        encoder = lambda s: len(s)/4    # 4 char per token heuristic
+    token_length = encoder(text)
+    token_limit = token_limit_getter(model.name)
+    if token_length >= token_limit:
+        error_helper(f"Prompt is too long. Please try reducing the size of the prompt or code uploaded.")
 def chat_with_llms(prompt, code_files, profile_file, profile_type):
     model1 = select_random_model()
     model2 = select_random_model()
     if formatted1 is None or formatted2 is None:
         error_helper("Failed to format prompt. Please try again.")
+    check_length(formatted1, model1)
+    check_length(formatted2, model2)
     response1 = model1.get_response(formatted1)
     response2 = model2.get_response(formatted2)
 # Launch the Gradio interface
 if __name__ == '__main__':
+    interface.launch(share=False)

token_limits.json ADDED Viewed

+{
+    "gpt-4o": 128000,
+    "gpt-4o-mini": 128000,
+    "gpt-4-turbo": 128000,
+    "gpt-4": 8192,
+    "gpt-3.5-turbo": 16385,
+    "gemini-1.5-flash": 1048576,
+    "gemini-1.5-pro": 2097152
+}