Spaces:

muryshev
/

saiga-api-cuda

Paused

App Files Files Community

muryshev commited on Oct 9, 2023

Commit

5efafc9

1 Parent(s): efee073

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -24

app.py CHANGED Viewed

@@ -2,9 +2,12 @@ from flask import Flask, request, Response
 import logging
 from llama_cpp import Llama
 import threading
-from huggingface_hub import snapshot_download
 import gc
 import os.path
 SYSTEM_PROMPT = "Ты — русскоязычный автоматический ассистент. Ты максимально точно и отвечаешь на запросы пользователя, используя русский язык."
 SYSTEM_TOKEN = 1788
@@ -51,6 +54,29 @@ model = None
 model_path = snapshot_download(repo_id=repo_name, allow_patterns=model_name) + '/' + model_name
 app.logger.info('Model path: ' + model_path)
 def init_model(context_size, enable_gpu=False, gpu_layer_number=35):
     global model
@@ -221,18 +247,8 @@ def generate_response():
     top_k = parameters.get("top_k", 30)
     return_full_text = parameters.get("return_full_text", False)
-    # Generate the response
-    #system_tokens = get_system_tokens(model)
-    #tokens = system_tokens
-    #if preprompt != "":
-    #    tokens = get_system_tokens_for_preprompt(model, preprompt)
-    #else:
     tokens = get_system_tokens(model)
-    tokens.append(LINEBREAK_TOKEN)
-    #model.eval(tokens)
     tokens = []
@@ -243,22 +259,13 @@ def generate_response():
             message_tokens = get_message_tokens(model=model, role="user", content=message.get("content", ""))
         tokens.extend(message_tokens)
-    #app.logger.info('model.eval start')
-    #model.eval(tokens)
-    #app.logger.info('model.eval end')
-    #last_message = messages[-1]
-    #if last_message.get("from") == "assistant":
-    #    last_message_tokens = get_message_tokens(model=model, role="bot", content=last_message.get("content", ""))
-    #else:
-    #    last_message_tokens = get_message_tokens(model=model, role="user", content=last_message.get("content", ""))
     tokens.extend([model.token_bos(), BOT_TOKEN, LINEBREAK_TOKEN])
     app.logger.info('Prompt:')
-    app.logger.info(model.detokenize(tokens[:CONTEXT_SIZE]).decode("utf-8", errors="ignore"))
     stop_generation = False
     app.logger.info('Generate started')
@@ -271,8 +278,20 @@ def generate_response():
     )
     app.logger.info('Generator created')
     # Use Response to stream tokens
-    return Response(generate_tokens(model, generator), content_type='text/plain', status=200, direct_passthrough=True)
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860, debug=False, threaded=False)

 import logging
 from llama_cpp import Llama
 import threading
+from huggingface_hub import snapshot_download, Repository
+import huggingface_hub
 import gc
 import os.path
+import csv
+from datetime import datetime
 SYSTEM_PROMPT = "Ты — русскоязычный автоматический ассистент. Ты максимально точно и отвечаешь на запросы пользователя, используя русский язык."
 SYSTEM_TOKEN = 1788
 model_path = snapshot_download(repo_id=repo_name, allow_patterns=model_name) + '/' + model_name
 app.logger.info('Model path: ' + model_path)
+DATASET_REPO_URL = "https://huggingface.co/datasets/muryshev/saiga-chat"
+DATA_FILENAME = "data.csv"
+DATA_FILE = os.path.join("data", DATA_FILENAME)
+HF_TOKEN = os.environ.get("HF_TOKEN")
+app.logger.info("HF_TOKEN is None?", HF_TOKEN is None)
+app.logger.info("hfh", huggingface_hub.__version__)
+repo = Repository(
+    local_dir="data", clone_from=DATASET_REPO_URL, use_auth_token=HF_TOKEN
+)
+def log(request: str = '', response: str = ''):
+    if request or response:
+        with open(DATA_FILE, "a") as csvfile:
+            writer = csv.DictWriter(csvfile, fieldnames=["request", "response", "time"])
+            writer.writerow(
+                {"request": request, "response": response, "time": str(datetime.now())}
+            )
+        commit_url = repo.push_to_hub()
+        app.logger.info(commit_url)
 def init_model(context_size, enable_gpu=False, gpu_layer_number=35):
     global model
     top_k = parameters.get("top_k", 30)
     return_full_text = parameters.get("return_full_text", False)
     tokens = get_system_tokens(model)
+    tokens.append(LINEBREAK_TOKEN)
     tokens = []
             message_tokens = get_message_tokens(model=model, role="user", content=message.get("content", ""))
         tokens.extend(message_tokens)
     tokens.extend([model.token_bos(), BOT_TOKEN, LINEBREAK_TOKEN])
     app.logger.info('Prompt:')
+    request = model.detokenize(tokens[:CONTEXT_SIZE]).decode("utf-8", errors="ignore")
+    app.logger.info(request)
     stop_generation = False
     app.logger.info('Generate started')
     )
     app.logger.info('Generator created')
+    response_tokens = []
+    def generate_and_log_tokens(model, generator):
+        for token in generate_tokens(model, generator):
+            if token == model.token_eos(): # or (max_new_tokens is not None and i >= max_new_tokens):
+                log(request=request, response=model.detokenize(response_tokens).decode("utf-8", errors="ignore"))
+                break
+            response_tokens.append(token)
+            yield token
     # Use Response to stream tokens
+    return Response(generate_and_log_tokens(model, generator), content_type='text/plain', status=200, direct_passthrough=True)
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860, debug=False, threaded=False)