Spaces:

saillab
/

TeacherAssistant

Sleeping

App Files Files Community

barghavani commited on Apr 11, 2024

Commit

d9bdbe2

verified ·

1 Parent(s): e815db6

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -46

app.py CHANGED Viewed

@@ -11,34 +11,19 @@ from langchain.prompts import PromptTemplate
 from dotenv import load_dotenv
 import whisper
 genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))
-model = whisper.load_model("small")
-def transcribe(audio):
-    # Load audio and pad/trim it to fit 30 seconds
-    audio = whisper.load_audio(audio)
-    audio = whisper.pad_or_trim(audio)
-    # Make log-Mel spectrogram and move to the same device as the model
     mel = whisper.log_mel_spectrogram(audio).to(model.device)
-    # Detect the spoken language
-    _, probs = model.detect_language(mel)
-    detected_language = max(probs, key=probs.get)
-    print(f"Detected language: {detected_language}")
-    # Decode the audio
-    options = whisper.DecodingOptions(fp16=False)
-    result = whisper.decode(model, mel, options)
-    # Check if the detected language is English; if not, translate the text
-    if detected_language != "en":
-        # Initialize the translation model; specify source and target languages as needed
-        translator = pipeline("translation_xx_to_yy", model="Helsinki-NLP/opus-mt-xx-en")
-        translated_text = translator(result.text, max_length=512)[0]['translation_text']
-        return translated_text
-    return result.text
 def get_pdf_text(pdf_docs):
     text=""
@@ -73,7 +58,7 @@ def get_conversational_chain():
     """
     model = ChatGoogleGenerativeAI(model="gemini-pro",
-                             temperature=0.1)
     prompt = PromptTemplate(template = prompt_template, input_variables = ["context", "question"])
     chain = load_qa_chain(model, chain_type="stuff", prompt=prompt)
@@ -85,7 +70,7 @@ def get_conversational_chain():
 def user_input(user_question):
     embeddings = GoogleGenerativeAIEmbeddings(model = "models/embedding-001")
-    new_db = FAISS.load_local("faiss_index", embeddings,allow_dangerous_deserialization= True)
     docs = new_db.similarity_search(user_question)
     chain = get_conversational_chain()
@@ -102,29 +87,23 @@ def user_input(user_question):
 def main():
-    st.set_page_config(page_title="Voice-enabled PDF QnA")
-    st.header("Ask questions by voice or text from PDFs")
     with st.sidebar:
-        pdf_docs = st.file_uploader("Upload PDFs:", accept_multiple_files=True)
-        submit_button = st.button("Process PDFs")
-    # Handling PDF processing
-    if submit_button and pdf_docs:
-        with st.spinner("Extracting text from PDFs..."):
-            raw_text = get_pdf_text(pdf_docs)
-            text_chunks = get_text_chunks(raw_text)
-            get_vector_store(text_chunks)
-            st.success("PDFs processed and ready for questions.")
-    # Voice recording for question
-    audio_file = st.file_uploader("Record your question as audio (WAV format):", type=["wav"])
-    if audio_file:
-        with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
-            tmp_file.write(audio_file.getvalue())
-            transcribed_text = transcribe(tmp_file.name)
-        st.text_input("Transcribed question:", transcribed_text)
-        user_input(transcribed_text)

 from dotenv import load_dotenv
 import whisper
+load_dotenv()
+os.getenv("GOOGLE_API_KEY")
 genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))
+def transcribe_audio(audio_file):
+    model = whisper.load_model("small")
+    audio = whisper.load_audio(audio_file)
+    audio = whisper.pad_or_trim(audio)
     mel = whisper.log_mel_spectrogram(audio).to(model.device)
+    prediction = model.transcribe(mel, language="en", fp16=False)
+    return prediction['text']
 def get_pdf_text(pdf_docs):
     text=""
     """
     model = ChatGoogleGenerativeAI(model="gemini-pro",
+                             temperature=0.3)
     prompt = PromptTemplate(template = prompt_template, input_variables = ["context", "question"])
     chain = load_qa_chain(model, chain_type="stuff", prompt=prompt)
 def user_input(user_question):
     embeddings = GoogleGenerativeAIEmbeddings(model = "models/embedding-001")
+    new_db = FAISS.load_local("faiss_index", embeddings)
     docs = new_db.similarity_search(user_question)
     chain = get_conversational_chain()
 def main():
+    st.set_page_config("Chat PDF")
+    st.header("Chat with PDF using Gemini💁")
+    user_question = st.text_input("Ask a Question from the PDF Files")
+    if user_question:
+        user_input(user_question)
     with st.sidebar:
+        st.title("Menu:")
+        pdf_docs = st.file_uploader("Upload your PDF Files and Click on the Submit & Process Button", accept_multiple_files=True)
+        if st.button("Submit & Process"):
+            with st.spinner("Processing..."):
+                raw_text = get_pdf_text(pdf_docs)
+                text_chunks = get_text_chunks(raw_text)
+                get_vector_store(text_chunks)
+                st.success("Done")