MA_check

Runtime error

App Files Files Community

destiratnakomala commited on May 3

Commit

33d569a

•

1 Parent(s): fdbdac0

Create app.py

Browse files

Files changed (1) hide show

app.py +133 -0

app.py ADDED Viewed

	@@ -0,0 +1,133 @@

+import streamlit as st
+import os
+import pandas as pd
+from PyPDF2 import PdfReader
+import openai
+from collections import defaultdict
+from io import StringIO
+from pdfminer.high_level import extract_text
+import json
+from openai import OpenAI
+import re
+# 1. Initialization
+api_key = "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"
+openai.api_key = api_key
+client = OpenAI(api_key=api_key)
+pdf_folder = "pdf"
+st.title("Mahkamah Agung: NER & Summarization of Legal Documents")
+#---------------------PDF OVERVIEW----------------------
+st.subheader("PDF Folder Overview")
+def get_pdf_details(folder_path):
+    pdf_details = []
+    for filename in os.listdir(folder_path):
+        if filename.lower().endswith('.pdf'):
+            pdf_path = os.path.join(folder_path, filename)
+            try:
+                with open(pdf_path, "rb") as file:
+                    pdf_reader = PdfReader(file)
+                    page_count = len(pdf_reader.pages)
+                    pdf_details.append({"Filename": filename, "Page Count": page_count})
+            except Exception as e:
+                st.warning(f"Could not read {filename}: {str(e)}")
+    return pdf_details
+pdf_list = get_pdf_details(pdf_folder)
+pdf_df = pd.DataFrame(pdf_list)
+if not pdf_df.empty:
+    with st.expander('PDF Overview'):
+       st.dataframe(pdf_df)
+else:
+    st.warning("No PDFs found in the specified folder.")
+#---------------------PDF SEARCH AND EXTRACT----------------------
+st.subheader("PDF to Text Conversion")
+# Function to read and extract text from a PDF using PdfReader
+def extract_text_from_pdf_pypdf2(pdf_path):
+    text = ""
+    with open(pdf_path, "rb") as file:
+        pdf_reader = PdfReader(file)
+        for page in pdf_reader.pages:
+            page_text = page.extract_text()
+            if page_text:
+                text += page_text
+    return text
+# Function to read and extract text from a PDF using pdfminer
+def extract_text_from_pdf_pdfminer(pdf_path):
+    # Extract text using pdfminer.six
+    try:
+        text = extract_text(pdf_path)
+    except Exception as e:
+        st.error(f"Error extracting text from {pdf_path}: {str(e)}")
+        text = ""
+    return text
+pdf_files = [f for f in os.listdir(pdf_folder) if f.lower().endswith('.pdf')]
+search_query = st.text_input("Search for a PDF")
+filtered_pdfs = [pdf for pdf in pdf_files if search_query.lower() in pdf.lower()]
+if filtered_pdfs:
+    selected_pdf = st.selectbox("Select a PDF to convert to text", filtered_pdfs)
+else:
+    st.warning("No PDFs found matching your search.")
+if st.button("analyze The Document"):
+    pdf_path = os.path.join(pdf_folder, selected_pdf)
+    extracted_text = extract_text_from_pdf_pdfminer(pdf_path)
+    # Display the extracted text
+    if extracted_text:
+        with st.expander('Extracted Text'):
+            st.text_area("Extracted Text", value=extracted_text, height=300)
+    else:
+        st.warning("No text extracted. The PDF might contain images or other non-text content.")
+    # template = """
+    #
+    # #   Anda adalah seorang hakim agung di Mahkamah Agung di Indonesia. Dari hasil putusan dibawah ini berikan aku kesimpulannya:
+    # {}
+    # variabel yang harus ada adalah sebagai berikut: presiding judge, member judge, clerk, ruling, other rulings, note of ruling, date of deliberation, date read out, type of judicial institution, date of register, judicial institution, case_number, court, defendants.name, defendants.place_of_birth, defendants.date_of_birth, defendants.age, defendants.gender, defendants.nationality, defendants.religion, defendants.occupation, charges.article, charges.offense, verdict.sentence, verdict.assets_confiscated.description, verdict.assets_confiscated.weight, fine dan conclusion
+    # # """
+    template = """
+        # Anda Adalah Seorang Hakim Agung Di Mahkamah Agung Di Indonesia. Berdasarkan Putusan Di Bawah Ini, Berikan Kesimpulannya:
+        {}
+        Variabel Yang Harus Ada Adalah Sebagai Berikut: Hakim Ketua, Hakim Anggota, Panitera, Putusan, Putusan Lainnya, Catatan Putusan, Tanggal Musyawarah, Tanggal Pembacaan, Jenis Institusi Yudisial, Tanggal Pendaftaran, Institusi Yudisial, Nomor Kasus, Pengadilan, Terdakwa.Nama, Terdakwa.Tempat_Lahir, Terdakwa.Tanggal_Lahir, Terdakwa.Usia, Terdakwa.Jenis_Kelamin, Terdakwa.Kebangsaan, Terdakwa.Agama, Terdakwa.Pekerjaan, Pasal_Dakwaan, Pelanggaran_Dakwaan, Vonis.Hukuman, Vonis.Atribut_Disita.Deskripsi, Vonis.Atribut_Disita.Berat, Denda, Dan Kesimpulan.
+    # """
+    #---------------------NER & SUMMARIZATION----------------------
+    response = client.chat.completions.create(
+    model="gpt-3.5-turbo-0125",
+    response_format={ "type": "json_object" },
+    messages=[
+        {"role": "system", "content": "You are a helpful assistant designed to output JSON."},
+        {"role": "user", "content": template.format(extracted_text)}
+    ]
+    )
+    data= json.loads(response.choices[0].message.content)
+    df = pd.json_normalize(data)
+    df=df.T
+    df.columns = ["Kesimpulan Putusan"]
+    st.dataframe(df)