Spaces:

chelscelis
/

resume-screening-classification

Running

App Files Files Community

chelscelis commited on Oct 18, 2023

Commit

3cdb53b

•

1 Parent(s): f9848af

Upload 2 files

Browse files

Files changed (2) hide show

app.py +2 -0
utils.py +5 -175

app.py CHANGED Viewed

@@ -59,6 +59,7 @@ with tab2:
         st.divider()
         st.header('Output')
         resumeClf = pd.read_excel(uploadedResumeClf)
         if 'Resume' in resumeClf.columns:
             resumeClf = classifyResumes(resumeClf)
             with st.expander('View Bar Chart'):
@@ -98,6 +99,7 @@ with tab3:
         st.header('Output')
         jobDescriptionRnk = uploadedJobDescriptionRnk.read().decode('utf-8')
         resumeRnk = pd.read_excel(uploadedResumeRnk)
         if 'Resume' in resumeRnk.columns:
             resumeRnk = rankResumes(jobDescriptionRnk, resumeRnk)
             with st.expander('View Job Description'):

         st.divider()
         st.header('Output')
         resumeClf = pd.read_excel(uploadedResumeClf)
         if 'Resume' in resumeClf.columns:
             resumeClf = classifyResumes(resumeClf)
             with st.expander('View Bar Chart'):
         st.header('Output')
         jobDescriptionRnk = uploadedJobDescriptionRnk.read().decode('utf-8')
         resumeRnk = pd.read_excel(uploadedResumeRnk)
         if 'Resume' in resumeRnk.columns:
             resumeRnk = rankResumes(jobDescriptionRnk, resumeRnk)
             with st.expander('View Job Description'):

utils.py CHANGED Viewed

@@ -40,7 +40,6 @@ def addZeroFeatures(matrix):
 @st.cache_data(max_entries = 1, show_spinner = False)
 def classifyResumes(df):
-    # WITH PROGRESS BAR
     progressBar = st.progress(0)
     progressBar.progress(0, text = "Preprocessing data ...")
     startTime = time.time()
@@ -72,29 +71,6 @@ def classifyResumes(df):
     st.info(f'Finished classifying {len(resumeText)} resumes - {elapsedTimeStr}')
     return df
-    # NO LOADING WIDGET
-    # startTime = time.time()
-    # df['cleanedResume'] = df.Resume.apply(lambda x: performStemming(x))
-    # resumeText = df['cleanedResume'].values
-    # vectorizer = loadTfidfVectorizer()
-    # wordFeatures = vectorizer.transform(resumeText)
-    # wordFeaturesWithZeros = addZeroFeatures(wordFeatures)
-    # finalFeatures = dimensionalityReduction(wordFeaturesWithZeros)
-    # knn = loadKnnModel()
-    # predictedCategories = knn.predict(finalFeatures)
-    # le = loadLabelEncoder()
-    # df['Industry Category'] = le.inverse_transform(predictedCategories)
-    # df['Industry Category'] = pd.Categorical(df['Industry Category'])
-    # df.drop(columns = ['cleanedResume'], inplace = True)
-    # endTime = time.time()
-    # elapsedSeconds = endTime - startTime
-    # elapsedTime = datetime.timedelta(seconds = elapsedSeconds)
-    # hours, remainder = divmod(elapsedTime.seconds, 3600)
-    # minutes, seconds = divmod(remainder, 60)
-    # elapsedTimeStr = f"{hours} hr {minutes} min {seconds} sec"
-    # st.info(f'Finished in {elapsedTimeStr}')
-    # return df
 def clickClassify():
     st.session_state.processClf = True
@@ -283,7 +259,6 @@ model = loadModel()
 @st.cache_data(max_entries = 1, show_spinner = False)
 def rankResumes(text, df):
-    # WITH PROGRESS BAR
     progressBar = st.progress(0)
     progressBar.progress(0, text = "Preprocessing data ...")
     startTime = time.time()
@@ -326,156 +301,6 @@ def rankResumes(text, df):
     st.info(f'Finished ranking {len(df)} resumes - {elapsedTimeStr}')
     return df
-    # NO LOADING WIDGET
-    # startTime = time.time()
-    # jobDescriptionText = performLemmatization(text)
-    # df['cleanedResume'] = df['Resume'].apply(lambda x: performLemmatization(x))
-    # documents = [jobDescriptionText] + df['cleanedResume'].tolist()
-    # dictionary = Dictionary(documents)
-    # tfidf = TfidfModel(dictionary = dictionary)
-    # similarityIndex = WordEmbeddingSimilarityIndex(model)
-    # similarityMatrix = SparseTermSimilarityMatrix(similarityIndex, dictionary, tfidf)
-    # query = tfidf[dictionary.doc2bow(jobDescriptionText)]
-    # index = SoftCosineSimilarity(
-    #     tfidf[[dictionary.doc2bow(resume) for resume in df['cleanedResume']]],
-    #     similarityMatrix
-    # )
-    # similarities = index[query]
-    # df['Similarity Score'] = similarities
-    # df.sort_values(by = 'Similarity Score', ascending = False, inplace = True)
-    # df.drop(columns = ['cleanedResume'], inplace = True)
-    # endTime = time.time()
-    # elapsedSeconds = endTime - startTime
-    # elapsedTime = datetime.timedelta(seconds = elapsedSeconds)
-    # hours, remainder = divmod(elapsedTime.seconds, 3600)
-    # minutes, seconds = divmod(remainder, 60)
-    # elapsedTimeStr = f"{hours} hr {minutes} min {seconds} sec"
-    # st.info(f'Finished in {elapsedTimeStr}')
-    # return df
-# TF-IDF + LSA + COSSIM
-# from sklearn.decomposition import TruncatedSVD
-# import math
-# def resumesRank(jobDescriptionRnk, resumeRnk):
-#     jobDescriptionRnk = preprocessing(jobDescriptionRnk)
-#     resumeRnk['cleanedResume'] = resumeRnk.Resume.apply(lambda x: preprocessing(x))
-#     resumes = resumeRnk['cleanedResume'].values
-#     # tfidfVectorizer = TfidfVectorizer(sublinear_tf = True, stop_words = 'english')
-#     # tfidfVectorizer = TfidfVectorizer(sublinear_tf = True)
-#     # tfidfVectorizer = TfidfVectorizer(stop_words = 'english')
-#     tfidfVectorizer = TfidfVectorizer()
-#     tfidfMatrix = tfidfVectorizer.fit_transform([jobDescriptionRnk] + list(resumes))
-#     num_features = len(tfidfVectorizer.get_feature_names_out())
-#     st.write(f"Number of TF-IDF Features: {num_features}")
-#     nComponents = math.ceil(len(resumes) * 0.55)
-#     # nComponents = math.ceil(num_features * 0.01)
-#     # nComponents = 5
-#     st.write(nComponents)
-#     # nComponents = len(resumes)
-#     lsa = TruncatedSVD(n_components=nComponents)
-#     lsaMatrix = lsa.fit_transform(tfidfMatrix)
-#     similarityScores = cosine_similarity(lsaMatrix[0:1], lsaMatrix[1:])
-#     resumeRnk['Similarity Score (%)'] = similarityScores[0] * 100
-#     resumeRnk = resumeRnk.sort_values(by='Similarity Score (%)', ascending=False)
-#     del resumeRnk['cleanedResume']
-#     return resumeRnk
-# 1 BY 1 SOFT COSSIM
-# def resumesRank(jobDescriptionRnk, resumeRnk):
-#     jobDescriptionText = preprocessing2(jobDescriptionRnk)
-#     resumeRnk['cleanedResume'] = resumeRnk['Resume'].apply(lambda x: preprocessing2(x))
-#     similarityscore = []
-#     for resume in resumeRnk['cleanedResume']:
-#         documents = [jobDescriptionText, resume]
-#         dictionary = Dictionary(documents)
-#         documentBow = [dictionary.doc2bow(doc) for doc in documents]
-#         tfidf = TfidfModel(documentBow, dictionary=dictionary)
-#         similarityIndex = WordEmbeddingSimilarityIndex(model)
-#         similarityMatrix = SparseTermSimilarityMatrix(similarityIndex, dictionary, tfidf)
-#         # similarityMatrix = SparseTermSimilarityMatrix(similarityIndex, dictionary)
-#         value = tfidf[dictionary.doc2bow(resume)]
-#         # value = dictionary.doc2bow(jobDescriptionText)
-#         index = SoftCosineSimilarity(
-#             # tfidf[[dictionary.doc2bow(resume)]],
-#             tfidf[[dictionary.doc2bow(jobDescriptionText)]],
-#             # [dictionary.doc2bow(resume) for resume in resumeRnk['cleanedResume']],
-#             similarityMatrix,
-#         )
-#         similarities = index[value]
-#         similarityscore.append(similarities)
-#     print(similarityscore)
-#     resumeRnk['Similarity Score'] = similarityscore
-#     resumeRnk.sort_values(by='Similarity Score', ascending=False, inplace=True)
-#     resumeRnk.drop(columns=['cleanedResume'], inplace=True)
-#     return resumeRnk
-#
-# TF-IDF SCORE + WORD EMBEDDINGS SCORE
-# def resumesRank(jobDescriptionRnk, resumeRnk):
-#     def get_word_embedding(text):
-#         words = text.split()
-#         valid_words = [word for word in text.split() if word in model]
-#         if valid_words:
-#             return np.mean([model[word] for word in valid_words], axis=0)
-#         else:
-#             return np.zeros(model.vector_size)
-#     jobDescriptionRnk = preprocessing2(jobDescriptionRnk)
-#     resumeRnk['cleanedResume'] = resumeRnk.Resume.apply(lambda x: preprocessing2(x))
-#     tfidfVectorizer = TfidfVectorizer(sublinear_tf = True, stop_words='english')
-#     jobTfidf = tfidfVectorizer.fit_transform([jobDescriptionRnk])
-#     jobDescriptionEmbedding = get_word_embedding(jobDescriptionRnk)
-#     resumeSimilarities = []
-#     for resumeContent in resumeRnk['cleanedResume']:
-#         resumeEmbedding = get_word_embedding(resumeContent)
-#         similarityFastText = cosine_similarity([jobDescriptionEmbedding], [resumeEmbedding])[0][0]
-#         similarityTFIDF = cosine_similarity(jobTfidf, tfidfVectorizer.transform([resumeContent]))[0][0]
-#         similarity = (0.6 * similarityTFIDF) + (0.4 * similarityFastText)
-#         final_similarity = similarity * 100
-#         resumeSimilarities.append(final_similarity)
-#     resumeRnk['Similarity Score (%)'] = resumeSimilarities
-#     resumeRnk = resumeRnk.sort_values(by='Similarity Score (%)', ascending=False)
-#     del resumeRnk['cleanedResume']
-#     return resumeRnk
-# WORD EMBEDDINGS + COSSIM
-# def resumesRank(jobDescriptionRnk, resumeRnk):
-#     def get_word_embedding(text):
-#         words = text.split()
-#         valid_words = [word for word in text.split() if word in model]
-#         if valid_words:
-#             return np.mean([model[word] for word in valid_words], axis=0)
-#         else:
-#             return np.zeros(model.vector_size)
-#     jobDescriptionRnk = preprocessing2(jobDescriptionRnk)
-#     jobDescriptionEmbedding = get_word_embedding(jobDescriptionRnk)
-#     resumeRnk['cleanedResume'] = resumeRnk.Resume.apply(lambda x: preprocessing2(x))
-#     resumeSimilarities = []
-#     for resumeContent in resumeRnk['cleanedResume']:
-#         resumeEmbedding = get_word_embedding(resumeContent)
-#         similarity = cosine_similarity([jobDescriptionEmbedding], [resumeEmbedding])[0][0]
-#         percentageSimilarity = similarity * 100
-#         resumeSimilarities.append(percentageSimilarity)
-#     resumeRnk['Similarity Score (%)'] = resumeSimilarities
-#     resumeRnk = resumeRnk.sort_values(by='Similarity Score (%)', ascending=False)
-#     del resumeRnk['cleanedResume']
-#     return resumeRnk
-# TF-IDF + COSSIM
-# def resumesRank(jobDescriptionRnk, resumeRnk):
-#     jobDescriptionRnk = preprocessing2(jobDescriptionRnk)
-#     resumeRnk['cleanedResume'] = resumeRnk.Resume.apply(lambda x: preprocessing2(x))
-#     tfidfVectorizer = TfidfVectorizer(sublinear_tf = True, stop_words='english')
-#     jobTfidf = tfidfVectorizer.fit_transform([jobDescriptionRnk])
-#     resumeSimilarities = []
-#     for resumeContent in resumeRnk['cleanedResume']:
-#         resumeTfidf = tfidfVectorizer.transform([resumeContent])
-#         similarity = cosine_similarity(jobTfidf, resumeTfidf)
-#         percentageSimilarity = (similarity[0][0] * 100)
-#         resumeSimilarities.append(percentageSimilarity)
-#     resumeRnk['Similarity Score (%)'] = resumeSimilarities
-#     resumeRnk = resumeRnk.sort_values(by='Similarity Score (%)', ascending=False)
-#     del resumeRnk['cleanedResume']
-#     return resumeRnk
 def writeGettingStarted():
     st.write("""
     ## Hello, Welcome!
@@ -500,6 +325,11 @@ def writeGettingStarted():
     The organization of columns is up to you but ensure that the "Resume" column is present.
     The values under this column should include all the relevant details for each resume.
     """)
     st.divider()
     st.write("""
     ## Demo Walkthrough

 @st.cache_data(max_entries = 1, show_spinner = False)
 def classifyResumes(df):
     progressBar = st.progress(0)
     progressBar.progress(0, text = "Preprocessing data ...")
     startTime = time.time()
     st.info(f'Finished classifying {len(resumeText)} resumes - {elapsedTimeStr}')
     return df
 def clickClassify():
     st.session_state.processClf = True
 @st.cache_data(max_entries = 1, show_spinner = False)
 def rankResumes(text, df):
     progressBar = st.progress(0)
     progressBar.progress(0, text = "Preprocessing data ...")
     startTime = time.time()
     st.info(f'Finished ranking {len(df)} resumes - {elapsedTimeStr}')
     return df
 def writeGettingStarted():
     st.write("""
     ## Hello, Welcome!
     The organization of columns is up to you but ensure that the "Resume" column is present.
     The values under this column should include all the relevant details for each resume.
     """)
+    st.info("""
+    ##### NOTE:
+    - If the "Resume" column is not present, the classification/ranking process will not be executed.
+    - If there are multiple "Resume" columns, the first occurrence will be taken into account while the remaining duplicates are given a different column name.
+    """)
     st.divider()
     st.write("""
     ## Demo Walkthrough