Spaces:

MaxBlumenfeld
/

5930_final_deployment_00

Running

App Files Files Community

5930_final_deployment_00 / app.py

MaxBlumenfeld

Update app.py

666acd7 11 days ago

raw

history blame contribute delete

5.5 kB

	# import torch
	# from transformers import AutoTokenizer, AutoModelForCausalLM, LlamaForCausalLM, LlamaConfig
	# import gradio as gr


	# # Model IDs from Hugging Face Hub
	# base_model_id = "HuggingFaceTB/SmolLM2-135M"
	# instruct_model_id = "MaxBlumenfeld/smollm2-135m-bootleg-instruct-01"

	# # Load tokenizer
	# base_tokenizer = AutoTokenizer.from_pretrained(base_model_id)

	# # Load models with explicit LLaMA architecture
	# base_model = LlamaForCausalLM.from_pretrained(base_model_id)
	# instruct_model = LlamaForCausalLM.from_pretrained(instruct_model_id)

	# def generate_response(model, tokenizer, message, temperature=0.5, max_length=200, system_prompt="", is_instruct=False):
	# # Prepare input based on model type
	# if is_instruct:
	# if system_prompt:
	# full_prompt = f"{system_prompt}\n\nHuman: {message}\nAssistant:"
	# else:
	# full_prompt = f"Human: {message}\nAssistant:"
	# else:
	# # For base model, use simpler prompt format
	# full_prompt = message

	# inputs = tokenizer(full_prompt, return_tensors="pt")

	# with torch.no_grad():
	# outputs = model.generate(
	# inputs.input_ids,
	# max_length=max_length,
	# do_sample=True,
	# temperature=temperature,
	# top_k=50,
	# top_p=0.95,
	# num_return_sequences=1,
	# pad_token_id=tokenizer.eos_token_id # Add padding token
	# )

	# response = tokenizer.decode(outputs[0], skip_special_tokens=True)

	# if is_instruct:
	# try:
	# response = response.split("Assistant:")[-1].strip()
	# except:
	# pass
	# else:
	# response = response[len(full_prompt):].strip()

	# return response

	# def chat(message, temperature, max_length, system_prompt):
	# # Generate responses from both models
	# base_response = generate_response(
	# base_model,
	# base_tokenizer,
	# message,
	# temperature,
	# max_length,
	# system_prompt,
	# is_instruct=False
	# )

	# instruct_response = generate_response(
	# instruct_model,
	# base_tokenizer,
	# message,
	# temperature,
	# max_length,
	# system_prompt,
	# is_instruct=True
	# )

	# return base_response, instruct_response

	# # Create Gradio interface
	# with gr.Blocks() as demo:
	# gr.Markdown("# SmolLM2-135M Comparison Demo")
	# gr.Markdown("Compare responses between base and fine-tuned versions of SmolLM2-135M")

	# with gr.Row():
	# with gr.Column():
	# message_input = gr.Textbox(label="Input Message")
	# system_prompt = gr.Textbox(
	# label="System Prompt (Optional)",
	# placeholder="Set context or personality for the model",
	# lines=3
	# )

	# with gr.Column():
	# temperature = gr.Slider(
	# minimum=0.1,
	# maximum=2.0,
	# value=0.5,
	# label="Temperature"
	# )
	# max_length = gr.Slider(
	# minimum=50,
	# maximum=500,
	# value=200,
	# step=10,
	# label="Max Length"
	# )

	# with gr.Row():
	# with gr.Column():
	# gr.Markdown("### Base Model Response")
	# base_output = gr.Textbox(label="Base Model (SmolLM2-135M)", lines=5)

	# with gr.Column():
	# gr.Markdown("### Bootleg Instruct Model Response")
	# instruct_output = gr.Textbox(label="Fine-tuned Model", lines=5)

	# submit_btn = gr.Button("Generate Responses")
	# submit_btn.click(
	# fn=chat,
	# inputs=[message_input, temperature, max_length, system_prompt],
	# outputs=[base_output, instruct_output]
	# )

	# if __name__ == "__main__":
	# demo.launch()



	from transformers import AutoTokenizer, AutoModelForCausalLM
	import torch
	import gradio as gr

	# model_id = "HuggingFaceTB/SmolLM2-135M"
	model_id = "MaxBlumenfeld/smollm2-135m-bootleg-instruct04"

	tokenizer = AutoTokenizer.from_pretrained(model_id)
	model = AutoModelForCausalLM.from_pretrained(model_id)

	def generate_response(message, temperature=0.7, max_length=200):
	prompt = f"Human: {message}\nAssistant:"
	inputs = tokenizer(prompt, return_tensors="pt")

	with torch.no_grad():
	outputs = model.generate(
	inputs.input_ids,
	max_length=max_length,
	temperature=temperature,
	do_sample=True,
	pad_token_id=tokenizer.eos_token_id
	)

	response = tokenizer.decode(outputs[0], skip_special_tokens=True)
	return response.split("Assistant:")[-1].strip()

	with gr.Blocks() as demo:
	gr.Markdown("# SmolLM2 Bootleg Instruct Chat")

	with gr.Row():
	with gr.Column():
	message = gr.Textbox(label="Message")
	temp = gr.Slider(minimum=0.1, maximum=2.0, value=0.7, label="Temperature")
	max_len = gr.Slider(minimum=50, maximum=500, value=200, label="Max Length")
	submit = gr.Button("Send")

	with gr.Column():
	output = gr.Textbox(label="Response")

	submit.click(
	generate_response,
	inputs=[message, temp, max_len],
	outputs=output
	)

	if __name__ == "__main__":
	demo.launch()