Inference-APP-Document-Understanding-at-linelevel-v2

Runtime error

pierreguillou commited on Mar 6, 2023

Commit

9c8291e

•

1 Parent(s): f49e93c

Update files/functions.py

Files changed (1) hide show

files/functions.py CHANGED Viewed

@@ -50,26 +50,6 @@ print(os.popen(f'cat /etc/issue').read())
 print(os.popen(f'apt search tesseract').read())
 import pytesseract
-## model / feature extractor / tokenizer
-from transformers import LayoutLMv2ForTokenClassification # LayoutXLMTokenizerFast,
-import torch
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-# model
-# tokenizer = LayoutXLMTokenizerFast.from_pretrained(model_id)
-model = LayoutLMv2ForTokenClassification.from_pretrained(model_id);
-model.to(device);
-# feature extractor
-from transformers import LayoutLMv2FeatureExtractor
-feature_extractor = LayoutLMv2FeatureExtractor(apply_ocr=False)
-# tokenizer
-from transformers import AutoTokenizer
-tokenizer = AutoTokenizer.from_pretrained(tokenizer_id)
 ## Key parameters
 # categories colors
@@ -155,6 +135,26 @@ for lang_t, langcode_t in zip(langs_t,langscode_t):
 langdetect2Tesseract = {v:k for k,v in Tesseract2langdetect.items()}
 ## General
 # get text and bounding boxes from an image

 print(os.popen(f'apt search tesseract').read())
 import pytesseract
 ## Key parameters
 # categories colors
 langdetect2Tesseract = {v:k for k,v in Tesseract2langdetect.items()}
+## model / feature extractor / tokenizer
+from transformers import LayoutLMv2ForTokenClassification # LayoutXLMTokenizerFast,
+import torch
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# model
+# tokenizer = LayoutXLMTokenizerFast.from_pretrained(model_id)
+model = LayoutLMv2ForTokenClassification.from_pretrained(model_id);
+model.to(device);
+# feature extractor
+from transformers import LayoutLMv2FeatureExtractor
+feature_extractor = LayoutLMv2FeatureExtractor(apply_ocr=False)
+# tokenizer
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained(tokenizer_id)
 ## General
 # get text and bounding boxes from an image