ofai-kai-backup

Running

seawolf2357 commited on Aug 18

Commit

6ab04f4

•

1 Parent(s): 728fb17

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,7 +18,7 @@ def respond(
     message,
     history: list[tuple[str, str]],
     system_message="AI Assistant Role",
-    max_tokens=2048,
     temperature=0.7,
     top_p=0.95,
 ):
@@ -30,7 +30,6 @@ def respond(
     memory.append((message, None))
     messages = [{"role": "system", "content": full_system_message}]
     # 메모리에서 대화 기록을 가져와 메시지 목록에 추가
     for val in memory:
         if val[0]:
@@ -42,7 +41,6 @@ def respond(
         "Authorization": f"Bearer {TOKEN}",
         "Content-Type": "application/json"
     }
     payload = {
         "model": "meta-llama/Meta-Llama-3.1-405B-Instruct",
         "max_tokens": max_tokens,
@@ -50,7 +48,6 @@ def respond(
         "top_p": top_p,
         "messages": messages
     }
     response = requests.post("https://api-inference.huggingface.co/v1/chat/completions", headers=headers, json=payload, stream=True)
     # Stream 방식으로 데이터를 출력
@@ -79,9 +76,8 @@ demo = gr.ChatInterface(
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
         gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
         gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)"),
-    ],
-    streaming=True  # 스트리밍 모드 활성화
 )
 if __name__ == "__main__":
-    demo.queue().launch(max_threads=20)

     message,
     history: list[tuple[str, str]],
     system_message="AI Assistant Role",
+    max_tokens=512,
     temperature=0.7,
     top_p=0.95,
 ):
     memory.append((message, None))
     messages = [{"role": "system", "content": full_system_message}]
     # 메모리에서 대화 기록을 가져와 메시지 목록에 추가
     for val in memory:
         if val[0]:
         "Authorization": f"Bearer {TOKEN}",
         "Content-Type": "application/json"
     }
     payload = {
         "model": "meta-llama/Meta-Llama-3.1-405B-Instruct",
         "max_tokens": max_tokens,
         "top_p": top_p,
         "messages": messages
     }
     response = requests.post("https://api-inference.huggingface.co/v1/chat/completions", headers=headers, json=payload, stream=True)
     # Stream 방식으로 데이터를 출력
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
         gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
         gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)"),
+    ]
 )
 if __name__ == "__main__":
+    demo.queue().launch(max_threads=20)