Spaces:

Nassiraaa
/

LLM-for-email-phone-gmail

App Files Files Community

Nassiraaa commited on Jul 12

Commit

3f18c40

•

1 Parent(s): cfca1e4

Create app.py

Browse files

Files changed (1) hide show

app.py +110 -0

app.py ADDED Viewed

	@@ -0,0 +1,110 @@

+import streamlit as st
+from doctr.models import ocr_predictor
+from doctr.io import DocumentFile
+from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
+# Initialize DocTR OCR predictor
+ocr_model = ocr_predictor(pretrained=True)
+# Initialize the LLM model and tokenizer
+model = AutoModelForCausalLM.from_pretrained(
+    "microsoft/Phi-3-mini-4k-instruct",
+    device_map="auto",
+    torch_dtype="auto",
+    trust_remote_code=True,
+)
+tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-4k-instruct")
+# Define the text-generation pipeline
+pipe = pipeline(
+    "text-generation",
+    model=model,
+    tokenizer=tokenizer,
+)
+generation_args = {
+    "max_new_tokens": 500,
+    "return_full_text": False,
+    "temperature": 0.0,
+    "do_sample": False,
+}
+# Function to check CV completeness using LLM
+def check_cv_completeness(text):
+    sections = [
+        "Personal Information",
+        "Summary and objective",
+        "Education",
+        "Work Experience",
+        "Skills",
+        "Languages",
+        "Certificates",
+        "Interests",
+        "References (optional)"
+    ]
+    detected_sections = {section: "Not Detected" for section in sections}
+    for section in sections:
+        prompt = f"Does the following text contain the section '{section}'?\n\n{text}\n\nPlease respond with 'Detected' or 'Not Detected'."
+        messages = [
+            {"role": "system", "content": "You are a helpful AI assistant."},
+            {"role": "user", "content": prompt}
+        ]
+        output = pipe(messages, **generation_args)
+        response = output[0]['generated_text'].strip()
+        detected_sections[section] = response if response in ["Detected", "Not Detected"] else "Not Detected"
+    return detected_sections
+# Streamlit application
+def main():
+    st.title('Extraction de texte depuis un PDF avec DocTR et détection d\'erreurs')
+    # Uploader un fichier PDF
+    uploaded_file = st.file_uploader("Uploader un fichier PDF", type="pdf")
+    if uploaded_file is not None:
+        # Charger le fichier PDF avec Doctr
+        pdf_bytes = uploaded_file.read()
+        doc = DocumentFile.from_pdf(pdf_bytes)
+        # Extraire le texte
+        result = ocr_model(doc)
+        text = ""
+        for page in result.pages:
+            for block in page.blocks:
+                for line in block.lines:
+                    for word in line.words:
+                        text += word.value + " "
+                text += "\n"
+        # Afficher le texte extrait
+        st.header('Texte extrait du PDF')
+        st.write(text)
+        # Préparer l'entrée pour le LLM
+        extraction_prompt = f"Extraire l'email, le numéro de téléphone et la localisation à partir du texte suivant :\n{text}"
+        messages = [
+            {"role": "system", "content": "Vous êtes un assistant IA utile."},
+            {"role": "user", "content": extraction_prompt}
+        ]
+        # Utiliser le LLM pour extraire les détails
+        output = pipe(messages, **generation_args)
+        generated_text = output[0]['generated_text']
+        # Afficher les informations extraites
+        st.header('Informations extraites')
+        st.write(generated_text)
+        # Vérifier la complétude du CV
+        cv_completeness = check_cv_completeness(text)
+        st.header('CV Completeness')
+        for section, status in cv_completeness.items():
+            st.write(f"{section}: {status}")
+if __name__ == '__main__':
+    main()