Spaces:

saillab
/

TeacherAssistant

Sleeping

File size: 3,435 Bytes

2321c66
 
 
 
 
 
 
 
 
 
 
1f9aa71
 
b24916a
2334c6b
2321c66
 
 
b24916a
2321c66
b24916a
2321c66
b24916a
 
2321c66
 
 
 
 
 
 
b24916a
2321c66
 
 
 
 
b24916a
2321c66
 
b24916a
 
 
2321c66
 
 
 
b24916a
 
2321c66
 
b24916a
0b76712
d9bdbe2
b24916a
 
79a899a
5353c1d
b24916a
c8b10d8
4fb1273
0b76712
376988d
8fb982e
85d00ce
1f9aa71
 
2334c6b
a2dfe55
2334c6b
376988d
e7921c5
376988d
2334c6b
171aee0
0b76712
 
 
 
171aee0
 
 
 
85d00ce
171aee0
2321c66
171aee0

import streamlit as st
from PyPDF2 import PdfReader
from langchain.text_splitter import RecursiveCharacterTextSplitter
import os
from langchain_google_genai import GoogleGenerativeAIEmbeddings
import google.generativeai as genai
from langchain.vectorstores import FAISS
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.chains.question_answering import load_qa_chain
from langchain.prompts import PromptTemplate
from dotenv import load_dotenv
from st_audiorec import st_audiorec
import whisper
from txtai.pipeline import Translation

genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))

def get_pdf_text(pdf_docs):
    text = ""
    for pdf in pdf_docs:
        pdf_reader = PdfReader(pdf)
        for page in pdf_reader.pages:
            text += page.extract_text()
    return text

def get_text_chunks(text):
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=10000, chunk_overlap=1000)
    chunks = text_splitter.split_text(text)
    return chunks

def get_vector_store(text_chunks):
    embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
    vector_store = FAISS.from_texts(text_chunks, embedding=embeddings)
    vector_store.save_local("faiss_index")

def get_conversational_chain():
    prompt_template = """
    Answer the question as detailed as possible from the provided context, make sure to provide all the details, if the answer is not in provided context just say, "answer is not available in the context", don't provide the wrong answer\n\n
    Context:\n {context}?\n
    Question: \n{question}\n
    Answer: """
    model = ChatGoogleGenerativeAI(model="gemini-pro", temperature=0.1)
    prompt = PromptTemplate(template=prompt_template, input_variables=["context", "question"])
    chain = load_qa_chain(model, chain_type="stuff", prompt=prompt)
    return chain

def user_input(user_question):
    embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
    new_db = FAISS.load_local("faiss_index", embeddings, allow_dangerous_deserialization=True)
    docs = new_db.similarity_search(user_question)
    chain = get_conversational_chain()
    response = chain({"input_documents": docs, "question": user_question}, return_only_outputs=True)
    print(response)

    # Create translation model
    translate = Translation()
    translation = translate(response["output_text"], target="fa", source="en")

    st.write("Reply: ", translation)

def main():
    st.set_page_config("Chat PDF")
    st.header("QnA with Multiple PDF files💁")

    # Audio recording
    wav_audio_data = st_audiorec()
    if wav_audio_data is not None:
        with open("query.wav", "wb") as f:
            f.write(wav_audio_data)
        model = whisper.load_model("large")
        result = model.transcribe("query.wav", language="en", fp16=False)
        user_question = result["text"]
        st.write("Transcribed Question:", user_question)
        user_input(user_question)

    with st.sidebar:
        st.title("Menu:")
        pdf_docs = st.file_uploader("Upload your PDF Files and Click on the Submit & Process Button", accept_multiple_files=True)
        if st.button("Submit & Process"):
            with st.spinner("Processing..."):
                raw_text = get_pdf_text(pdf_docs)
                text_chunks = get_text_chunks(raw_text)
                get_vector_store(text_chunks)
            st.success("Done")

if __name__ == "__main__":
    main()