Spaces:

llmbb
/

LLMBB-Agent

Running

App Files Files Community

vlff李飞飞 commited on Dec 30, 2023

Commit

4ec8897

1 Parent(s): dc8d3c6

更新oai

Browse files

Files changed (1) hide show

qwen_agent/llm/qwen_oai.py +9 -9

qwen_agent/llm/qwen_oai.py CHANGED Viewed

@@ -301,8 +301,7 @@ def text_complete_last_message(history, stop_words_ids, gen_kwargs):
     return output
-def create_chat_completion(request: ChatCompletionRequest):
-    global qmodel, tokenizer
     gen_kwargs = {}
     if request.temperature is not None:
@@ -325,7 +324,7 @@ def create_chat_completion(request: ChatCompletionRequest):
     if request.stream:
         if request.functions:
             raise Exception("Invalid request: Function calling is not yet implemented for stream mode.")
-        generate = predict(query, history, request.model, stop_words, gen_kwargs)
         return generate
         # return EventSourceResponse(generate, media_type="text/event-stream")
@@ -365,9 +364,8 @@ def _dump_json(data: BaseModel, *args, **kwargs) -> str:
 def predict(
-        query: str, history: List[List[str]], model_id: str, stop_words: List[str], gen_kwargs: Dict,
 ):
-    global qmodel, tokenizer
     choice_data = ChatCompletionResponseStreamChoice(
         index=0, delta=DeltaMessage(role="assistant"), finish_reason=None
     )
@@ -438,6 +436,8 @@ class QwenChatAsOAI(BaseChatModel):
             trust_remote_code=True,
             resume_download=True,
         )
     def _chat_stream(
             self,
@@ -448,7 +448,7 @@ class QwenChatAsOAI(BaseChatModel):
                                          messages=messages,
                                          stop=stop,
                                          stream=True)
-        response = create_chat_completion(_request)
         # TODO: error handling
         for chunk in response:
             if hasattr(chunk.choices[0].delta, 'content'):
@@ -460,7 +460,7 @@ class QwenChatAsOAI(BaseChatModel):
             stop: Optional[List[str]] = None,
     ) -> str:
         _request = ChatCompletionRequest(model=self.model, messages=messages, stop=stop, stream=False)
-        response = create_chat_completion(_request)
         # TODO: error handling
         return response.choices[0].message.content
@@ -469,10 +469,10 @@ class QwenChatAsOAI(BaseChatModel):
                             functions: Optional[List[Dict]] = None) -> Dict:
         if functions:
             _request = ChatCompletionRequest(model=self.model, messages=messages, functions=functions)
-            response = create_chat_completion(_request)
         else:
             _request = ChatCompletionRequest(model=self.model, messages=messages)
-            response = create_chat_completion(_request)
         # TODO: error handling
         return response.choices[0].message.model_dump()

     return output
+def create_chat_completion(request: ChatCompletionRequest, qmodel, tokenizer):
     gen_kwargs = {}
     if request.temperature is not None:
     if request.stream:
         if request.functions:
             raise Exception("Invalid request: Function calling is not yet implemented for stream mode.")
+        generate = predict(query, history, request.model, stop_words, gen_kwargs, qmodel, tokenizer)
         return generate
         # return EventSourceResponse(generate, media_type="text/event-stream")
 def predict(
+        query: str, history: List[List[str]], model_id: str, stop_words: List[str], gen_kwargs: Dict, qmodel, tokenizer
 ):
     choice_data = ChatCompletionResponseStreamChoice(
         index=0, delta=DeltaMessage(role="assistant"), finish_reason=None
     )
             trust_remote_code=True,
             resume_download=True,
         )
+        self.qmodel = qmodel
+        self.tokenizer = tokenizer
     def _chat_stream(
             self,
                                          messages=messages,
                                          stop=stop,
                                          stream=True)
+        response = create_chat_completion(_request, self.qmodel, self.tokenizer)
         # TODO: error handling
         for chunk in response:
             if hasattr(chunk.choices[0].delta, 'content'):
             stop: Optional[List[str]] = None,
     ) -> str:
         _request = ChatCompletionRequest(model=self.model, messages=messages, stop=stop, stream=False)
+        response = create_chat_completion(_request, self.qmodel, self.tokenizer)
         # TODO: error handling
         return response.choices[0].message.content
                             functions: Optional[List[Dict]] = None) -> Dict:
         if functions:
             _request = ChatCompletionRequest(model=self.model, messages=messages, functions=functions)
+            response = create_chat_completion(_request, self.qmodel, self.tokenizer)
         else:
             _request = ChatCompletionRequest(model=self.model, messages=messages)
+            response = create_chat_completion(_request, self.qmodel, self.tokenizer)
         # TODO: error handling
         return response.choices[0].message.model_dump()