Spaces:

matsammut
/

ICS5110-Applied_ML

Sleeping

App Files Files Community

ICS5110-Applied_ML / app.py

matsammut

Update app.py

94096e8 verified 3 months ago

raw

history blame

6.03 kB

	import gradio as gr
	import joblib
	import pandas as pd
	import numpy as np
	from sklearn.preprocessing import LabelEncoder, StandardScaler, OneHotEncoder
	from sklearn.impute import KNNImputer
	from sklearn.decomposition import PCA

	# Load your saved model
	# model = joblib.load("ann_model.joblib")

	# # Define the prediction function
	def predict(age, workclass, education, marital_status, occupation, relationship, race, gender, capital_gain, capital_loss, hours_per_week, native_country):
	features = [age, workclass, education, marital_status, occupation, relationship, race, gender, capital_gain, capital_loss, hours_per_week, native_country]
	columns = [
	"age", "workclass", "educational-num", "marital-status", "occupation",
	"relationship", "race", "gender", "capital-gain", "capital-loss",
	"hours-per-week", "native-country"]
	df = pd.DataFrame(index=features, columns=columns)
	fixed_features = cleaning_features(df)
	# prediction = model.predict(features)
	# prediction = 1
	# return "Income >50K" if prediction == 1 else "Income <=50K"
	return print(fixed_features)

	def cleaning_features(data):
	le = LabelEncoder()
	scaler = StandardScaler()
	encoder = OneHotEncoder(sparse=False)
	numeric_cols = ['age', 'educational-num', 'hours-per-week']
	columns_to_encode = ['race','marital-status','relationship']


	# 1. Scale numerical features
	data[numeric_cols] = scaler.fit_transform(data[numeric_cols])

	# 2. Label encode gender and income
	data['gender'] = le.fit_transform(data['gender'])
	data['educational-num'] = le.fit_transform(data['educational-num'])

	# 3. One-hot encode race
	for N in columns_to_encode:
	race_encoded = encoder.fit_transform(data[[N]])
	race_encoded_cols = encoder.get_feature_names_out([N])
	race_encoded_df = pd.DataFrame(race_encoded, columns=race_encoded_cols, index=data.index)
	# Combine the encoded data with original dataframe
	data = pd.concat([data.drop(N, axis=1), race_encoded_df], axis=1)
	# Binarize native country
	data['native-country'] = data['native-country'].apply(lambda x: x == 'United-States')
	data['native-country'] = data['native-country'].astype(int)
	data = pca(data)
	return data

	# def pca(data):
	# encoder = OneHotEncoder(sparse_output=False)
	# one_hot_encoded = encoder.fit_transform(data[['workclass', 'occupation']])
	# encoded_columns_df = pd.DataFrame(one_hot_encoded, columns=encoder.get_feature_names_out())
	# pca_net = PCA(n_components=10)
	# pca_result_net = pca_net.fit_transform(encoded_columns_df)
	# pca_columns = [f'pca_component_{i+1}' for i in range(10)]
	# pca_df = pd.DataFrame(pca_result_net, columns=pca_columns)
	# data = data.drop(columns=['workclass', 'occupation'], axis=1) #remove the original columns
	# data = pd.concat([data, pca_df], axis=1)
	# return data


	def pca(data):
	encoder = joblib.load('onehot_encoder.joblib')
	pca_model = joblib.load('pca.joblib')
	one_hot_encoded = encoder.transform(data[['workclass', 'occupation']])
	encoded_columns_df = pd.DataFrame(one_hot_encoded, columns=encoder.get_feature_names_out())
	pca_result_net = pca_model.transform(encoded_columns_df)
	pca_columns = [f'pca_component_{i+1}' for i in range(pca_model.n_components_)]
	pca_df = pd.DataFrame(pca_result_net, columns=pca_columns)
	data = data.drop(columns=['workclass', 'occupation'], axis=1)
	data = pd.concat([data, pca_df], axis=1)
	return data

	def hbdscan_tranform(df_transformed):
	df_transformed['capital-gain'] = np.log1p(df_transformed['capital-gain'])
	df_transformed['capital-loss'] = np.log1p(df_transformed['capital-loss'])

	# Apply RobustScaler to all numerical features
	numerical_features = ['age', 'capital-gain', 'capital-loss', 'hours-per-week']
	scaler = RobustScaler()
	df_transformed[numerical_features] = scaler.fit_transform(df_transformed[numerical_features])
	return df_transformed


	# Create the Gradio interface
	interface = gr.Interface(
	fn=predict,
	inputs=[
	gr.Slider(18, 90, step=1, label="Age"),
	gr.Dropdown(
	["Private", "Self-emp-not-inc", "Self-emp-inc", "Federal-gov",
	"Local-gov", "State-gov", "Without-pay", "Never-worked"],
	label="Workclass"
	),
	gr.Dropdown(
	["Bachelors", "Some-college", "11th", "HS-grad", "Prof-school",
	"Assoc-acdm", "Assoc-voc", "9th", "7th-8th", "12th", "Masters",
	"1st-4th", "10th", "Doctorate", "5th-6th", "Preschool"],
	label="Education"
	),
	gr.Dropdown(
	["Married-civ-spouse", "Divorced", "Never-married", "Separated",
	"Widowed", "Married-spouse-absent", "Married-AF-spouse"],
	label="Marital Status"
	),
	gr.Dropdown(
	["Tech-support", "Craft-repair", "Other-service", "Sales",
	"Exec-managerial", "Prof-specialty", "Handlers-cleaners",
	"Machine-op-inspct", "Adm-clerical", "Farming-fishing",
	"Transport-moving", "Priv-house-serv", "Protective-serv",
	"Armed-Forces"],
	label="Occupation"
	),
	gr.Dropdown(
	["Wife", "Husband", "Own-child", "Unmarried", "Other-relative", "Not-in-family"],
	label="Relationship"
	),
	gr.Dropdown(
	["White", "Black", "Asian-Pac-Islander", "Amer-Indian-Eskimo", "Other"],
	label="Race"
	),
	gr.Dropdown(
	["Male", "Female"],
	label="Gender"
	),
	gr.Slider(1, 90, step=1, label="Hours Per Week"),
	gr.Slider(0, 100000, step=100, label="Capital Gain"),
	gr.Slider(0, 5000, step=50, label="Capital Loss"),
	gr.Dropdown(
	["United-States", "Other"],
	label="Native Country"
	)
	],
	outputs="text",
	title="Adult Income Predictor"
	)

	# Launch the app
	interface.launch()