QDrantRAG9

Sleeping

App Files Files Community

dinhquangson commited on Jun 27, 2024

Commit

acf945a

verified ·

1 Parent(s): 19e7110

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -70

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ from datasets import load_dataset
 from fastapi.middleware.cors import CORSMiddleware
 import pdfplumber
 import pytesseract
 # Loading
 import os
@@ -272,6 +273,8 @@ async def download_database():
 async def convert_upload_file(file: UploadFile = File(...)):
     import pytesseract
     from pdf2image import convert_from_path
     file_savePath =  join(temp_path,file.filename)
@@ -287,78 +290,26 @@ async def convert_upload_file(file: UploadFile = File(...)):
         ocr_text = pytesseract.image_to_string(image,lang='vie')
         text=text+ocr_text+'\n'
-    return text
-def get_type_name(element):
-  return type(element).__name__
-def filter_by_type(elements, type):
-  return [element for element in elements if get_type_name(element) == type]
-import re
-def extract_value_from_text(text, format):
-    pattern = re.compile(format)
-    match = pattern.search(text)
-    if match:
-        return match.group(0)  # Use group(0) to get the entire match
-    else:
-        return None
-def filter_by_labels(elements, labels, format):
-  for element in elements:
-    for label in labels:
-      if label.lower() in element.text.lower():
-        return extract_value_from_text(element.text, format)
-  return None
-def filter_by_values(elements, values):
-  for element in elements:
-    for value in values:
-      if value.lower() in element.text.lower():
-        return value
-  return None
-def get_elements_by_schemas(elements, schemas):
-  result_elements=[]
-  for schema in schemas:
-    result_element={}
-    filterred_by_type_elements = filter_by_type(elements, schema['layout_type'])
-    if 'labels' in schema:
-      filterred_by_label_elements = filter_by_labels(filterred_by_type_elements, schema['labels'], schema['format'])
-      if filterred_by_label_elements is not None:
-        result_element[schema['name']] = filterred_by_label_elements
-        result_elements.append(result_element)
-    elif 'values' in schema:
-      fitered_by_value_elements = filter_by_values(filterred_by_type_elements, schema['values'])
-      if fitered_by_value_elements is not None:
-        result_element[schema['name']] = fitered_by_value_elements
-        result_elements.append(result_element)
-    else:
-      if filterred_by_type_elements is not None:
-        result_element[schema['name']] = filterred_by_type_elements[0].text
-        result_elements.append(result_element)
-  return result_elements
-@app.post("/pdf2metadata/")
-async def extract_upload_file(file: UploadFile = File(...)):
-    from unstructured.partition.pdf import partition_pdf
-    file_savePath =  join(temp_path,file.filename)
-    with open(file_savePath,'wb') as f:
-        shutil.copyfileobj(file.file, f)
-    # Returns a List[Element] present in the pages of the parsed pdf document
-    elements = partition_pdf(file_savePath, languages=["vie"])
-    schemas = [{'name':'publisher','layout_type':'Title','position':0,'from_last':False},{'name':'number','layout_type':'Text','position':0,'from_last':False, 'label':['Số','Luật số']}]
-    return get_elements_by_schemas(elements, schemas)
 @app.get("/")
 def api_home():

 from fastapi.middleware.cors import CORSMiddleware
 import pdfplumber
 import pytesseract
+from models import Article, Chapter, Law
 # Loading
 import os
 async def convert_upload_file(file: UploadFile = File(...)):
     import pytesseract
     from pdf2image import convert_from_path
+    from octoai.client import OctoAI
+    from octoai.text_gen import ChatCompletionResponseFormat, ChatMessage
     file_savePath =  join(temp_path,file.filename)
         ocr_text = pytesseract.image_to_string(image,lang='vie')
         text=text+ocr_text+'\n'
+    client = OctoAI()
+    completion = client.text_gen.create_chat_completion(
+        model="meta-llama-3-8b-instruct",
+        messages=[
+            ChatMessage(role="system", content="You are a helpful assistant."),
+            ChatMessage(role="user", content=text),
+        ],
+        max_tokens=512,
+        presence_penalty=0,
+        temperature=0.1,
+        top_p=0.9,
+        response_format=ChatCompletionResponseFormat(
+            type="json_object",
+            schema=Law.model_json_schema(),
+        ),
+    )
+    return {content:text,metadate:completion.choices[0].message.content}
 @app.get("/")
 def api_home():