nlp-group
/

gradio_bert

Model card Files Files and versions Community

jrocha commited on Apr 14

Commit

b942bef

•

1 Parent(s): 64dfc10

Upload gradio_sindi.py with huggingface_hub

Browse files

Files changed (1) hide show

gradio_sindi.py +98 -0

gradio_sindi.py ADDED Viewed

	@@ -0,0 +1,98 @@

+# -*- coding: utf-8 -*-
+"""gradio_sindi.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/12KZGcYbsXlMWYC8U4aeR_Ex0u8fJLgly
+# libraries
+"""
+!pip install gradio>=4.13.0
+!pip install accelerate
+!pip install transformers>=4.34
+import gradio as gr
+import torch
+from transformers import pipeline
+import numpy as np
+import pandas as pd
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.metrics.pairwise import cosine_similarity
+from transformers import AutoTokenizer, AutoModelForQuestionAnswering
+import re
+"""# data - text"""
+splitted_df = pd.read_csv('/content/splitted_df_jo.csv')
+"""# getting context"""
+def remove_symbols(text):
+    remove_list = ['/', '(', ')', '\n', '.']
+    remove_chars = "".join(remove_list)
+    cleaned_text = "".join([char for char in text if char not in remove_chars])
+    # Remove non-ASCII characters
+    pattern_ascii = r'[^\x00-\x7F]'  # Matches any character outside the ASCII range
+    filtered_text = re.sub(pattern_ascii, '', cleaned_text)
+    return filtered_text
+def context_func(message):
+  # Create a TF-IDF vectorizer
+  vectorizer = TfidfVectorizer()
+  # Convert abstracts and question to TF-IDF vectors
+  text_tfidf = vectorizer.fit_transform(splitted_df["section_text"])
+  question_tfidf = vectorizer.transform([message])
+  # Calculate cosine similarity between question and each abstract
+  similarities = cosine_similarity(question_tfidf, text_tfidf)[0]
+  # Find the index of the most similar abstract
+  most_similar_index = similarities.argmax()
+  # Get the most similar abstract
+  most_similar_context = splitted_df["section_text"][most_similar_index]
+  most_similar_context = remove_symbols(most_similar_context)
+  return most_similar_context
+"""# the model"""
+!huggingface-cli login
+tokenizer = AutoTokenizer.from_pretrained("nlp-group/sindi-bert-final")
+model = AutoModelForQuestionAnswering.from_pretrained("nlp-group/sindi-bert-final")
+def answer_question(question):
+    context = context_func(question)
+    # Tokenize the inputs
+    inputs = tokenizer(question, context, return_tensors="pt", max_length=512, truncation=True)
+    # Get the answer from the model
+    outputs = model(**inputs)
+    answer_start_scores = outputs.start_logits
+    answer_end_scores = outputs.end_logits
+    answer_start = torch.argmax(answer_start_scores)
+    answer_end = torch.argmax(answer_end_scores) + 1
+    answer = tokenizer.decode(inputs["input_ids"][0][answer_start:answer_end])
+    return answer, context
+iface = gr.Interface(fn=answer_question,
+                     inputs=["text"],
+                     outputs=[gr.Textbox(label="Answer")],
+                     title="Women Cancer ChatBot",
+                     description="How can I help you?",
+                     examples=[
+                         ["What is breast cancer?"],
+                         ["What are treatments for cervical cancer?"]
+                     ])
+iface.launch(debug = True)