Spaces:

phamngoctukts
/

assistant

Runtime error

App Files Files Community

phamngoctukts commited on Nov 24, 2024

Commit

adf8038

verified ·

1 Parent(s): 0f9fd16

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -9

app.py CHANGED Viewed

@@ -30,9 +30,6 @@ class AppState:
     conversation:list = field(default_factory=list)
     recording: bool = False  # Thêm thuộc tính recording
     pause_threshold: float = 1  # Thêm thuộc tính pause_threshold
-    strength: float = 1.0
-    ckpt:list = field(default_factory=list)
-    guidance: float = 8
 def run_vad(ori_audio, sr):
     _st = time.time()
@@ -65,7 +62,7 @@ def determine_pause(audio:np.ndarray,sampling_rate:int,state:AppState) -> bool:
     print(f"duration_after_vad: {dur_vad:.3f} s, time_vad: {time_vad:.3f} s")
     return (duration - dur_vad) > state.pause_threshold # Sử dụng state.pause_threshold
-def process_audio(audio:tuple,state:AppState,image:Image, streng:float,ckpt,guidance):
     if state.recording:  # Kiểm tra state.stream:
         time.sleep(0.1)
         if state.stream is None:
@@ -74,9 +71,6 @@ def process_audio(audio:tuple,state:AppState,image:Image, streng:float,ckpt,guid
         else:
             state.stream = np.concatenate((state.stream, audio[1]))
         state.image_in=image
-        state.strength=streng
-        state.ckpt=ckpt
-        state.guidance=guidance
         pause_detected = determine_pause(state.stream, state.sampling_rate, state)
         state.pause_detected = pause_detected
         if state.pause_detected and state.started_talking:
@@ -146,7 +140,10 @@ def response_audio(state:AppState):
             return state, synthesize_speech("Đã chuyển sang chế độ " + ("vẽ" if state.painting else "nói chuyện"))
         if state.painting is True:
             promptx = prompt_hugingface(textin,"Hugging Face","Qwen/Qwen2.5-72B-Instruct","Medium")
-            img=resize(state.image_in)
             state.image_out = render.generate_images(textin, img)
             audio_bytes = synthesize_speech("Bạn thấy tôi vẽ "+textin+" có đẹp không")
             return state, audio_bytes
@@ -173,7 +170,10 @@ def response_text(state:AppState,textin,image:Image, prompt, progress=gr.Progres
         if state.painting is True:
             state.conversation.append({"role": "user", "content":"Bạn: " + textin})
             #state.image_out = generate_image(textin, image, streng, ckpt,guidance)
-            img=resize(image)
             image_out = render.generate_images(textin, img)
             state.image_out = image_out
             audio_bytes = synthesize_speech("Bạn thấy tôi vẽ "+prompt+" có đẹp không")

     conversation:list = field(default_factory=list)
     recording: bool = False  # Thêm thuộc tính recording
     pause_threshold: float = 1  # Thêm thuộc tính pause_threshold
 def run_vad(ori_audio, sr):
     _st = time.time()
     print(f"duration_after_vad: {dur_vad:.3f} s, time_vad: {time_vad:.3f} s")
     return (duration - dur_vad) > state.pause_threshold # Sử dụng state.pause_threshold
+def process_audio(audio:tuple,state:AppState,image:Image):
     if state.recording:  # Kiểm tra state.stream:
         time.sleep(0.1)
         if state.stream is None:
         else:
             state.stream = np.concatenate((state.stream, audio[1]))
         state.image_in=image
         pause_detected = determine_pause(state.stream, state.sampling_rate, state)
         state.pause_detected = pause_detected
         if state.pause_detected and state.started_talking:
             return state, synthesize_speech("Đã chuyển sang chế độ " + ("vẽ" if state.painting else "nói chuyện"))
         if state.painting is True:
             promptx = prompt_hugingface(textin,"Hugging Face","Qwen/Qwen2.5-72B-Instruct","Medium")
+            if state.image_in:
+                img=resize(state.image_in)
+            else:
+                img=None
             state.image_out = render.generate_images(textin, img)
             audio_bytes = synthesize_speech("Bạn thấy tôi vẽ "+textin+" có đẹp không")
             return state, audio_bytes
         if state.painting is True:
             state.conversation.append({"role": "user", "content":"Bạn: " + textin})
             #state.image_out = generate_image(textin, image, streng, ckpt,guidance)
+            if image:
+                img=resize(image)
+            else:
+                img=None
             image_out = render.generate_images(textin, img)
             state.image_out = image_out
             audio_bytes = synthesize_speech("Bạn thấy tôi vẽ "+prompt+" có đẹp không")