Spaces:

emeses
/

lab2

Sleeping

App Files Files Community

emeses commited on Dec 5, 2024

Commit

52e2a53

1 Parent(s): 62e9f3c

Update space

Browse files

Files changed (2) hide show

.gitignore +4 -0
app.py +48 -32

.gitignore ADDED Viewed

	@@ -0,0 +1,4 @@

+__pycache__/
+*.pyc
+.env
+venv/

app.py CHANGED Viewed

@@ -1,56 +1,72 @@
 import gradio as gr
 from huggingface_hub import InferenceClient
-"""
-For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
-"""
-client = InferenceClient("emeses/lab2_model")
 def respond(
     message,
     history: list[tuple[str, str]],
     system_message,
-    max_tokens,
-    temperature,
-    top_p,
 ):
-    # Simpler prompt format
-    prompt = message
-    response = ""
     try:
-        # Basic text generation without streaming first
-        response = client.text_generation(
-            prompt,
             max_new_tokens=max_tokens,
             temperature=temperature,
             top_p=top_p,
         )
         return response
     except Exception as e:
         return f"Error: {str(e)}"
-"""
-For information on how to customize the ChatInterface, peruse the gradio docs: https://www.gradio.app/docs/chatinterface
-"""
-demo = gr.ChatInterface(
     respond,
     additional_inputs=[
-        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
-        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
-        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(
-            minimum=0.1,
-            maximum=1.0,
-            value=0.95,
-            step=0.05,
-            label="Top-p (nucleus sampling)",
         ),
     ],
 )
-if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
 from huggingface_hub import InferenceClient
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from peft import PeftModel
+# Load model and tokenizer
+base_model = AutoModelForCausalLM.from_pretrained("unsloth/Llama-3.2-3B-Instruct-bnb-4bit")
+model = PeftModel.from_pretrained(base_model, "emeses/lab2_model")
+tokenizer = AutoTokenizer.from_pretrained("unsloth/Llama-3.2-3B-Instruct-bnb-4bit")
 def respond(
     message,
     history: list[tuple[str, str]],
     system_message,
+    max_tokens=512,
+    temperature=0.7,
+    top_p=0.9,
 ):
     try:
+        # Format the prompt
+        prompt = f"{system_message}\n\nUser: {message}\nAssistant:"
+        # Tokenize input
+        inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=512)
+        # Generate response
+        outputs = model.generate(
+            inputs.input_ids,
             max_new_tokens=max_tokens,
             temperature=temperature,
             top_p=top_p,
+            do_sample=True,
+            pad_token_id=tokenizer.pad_token_id,
         )
+        # Decode response
+        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        # Extract assistant's response
+        response = response.split("Assistant:")[-1].strip()
         return response
     except Exception as e:
         return f"Error: {str(e)}"
+# Create Gradio interface
+iface = gr.ChatInterface(
     respond,
     additional_inputs=[
+        gr.Textbox(
+            label="System Message",
+            value="You are a helpful AI assistant.",
+            lines=2  # Better for system prompts
         ),
+        gr.Slider(minimum=1, maximum=1024, value=512, label="Max Tokens"),
+        gr.Slider(minimum=0, maximum=1, value=0.7, label="Temperature", step=0.1),
+        gr.Slider(minimum=0, maximum=1, value=0.9, label="Top P", step=0.1),
     ],
+    title="Chat with Fine-tuned LLaMA Model",
+    description="A conversational AI powered by fine-tuned LLaMA 3.2B model",
+    retry_btn="Regenerate",  # Add retry button
+    undo_btn="Delete Last",  # Add undo button
+    clear_btn="Clear Chat"   # Add clear button
 )
+# Add examples to help users (optional)
+iface.queue().launch(
+    share=True,
+    server_name="0.0.0.0",
+    server_port=7860,
+    show_error=True  # Better error visibility
+)