serbog
/

xlm-roberta-large-job-matcher

Text Classification

Inference Endpoints

Model card Files Files and versions Community

serbog commited on Sep 7, 2023

Commit

55990e0

·

1 Parent(s): dafd68e

Upload handler.py

Files changed (1) hide show

handler.py +10 -6

handler.py CHANGED Viewed

@@ -30,16 +30,20 @@ class EndpointHandler:
         inputs = data.pop("inputs", data)
         encodings = self.tokenizer(
-            inputs, padding=False, truncation=False, max_length=514
         )
         truncated_input_ids = middle_truncate(
-            encodings["input_ids"], 514, self.tokenizer
         )
-        truncated_input_ids_array = np.array(truncated_input_ids)
-        attention_masks = (truncated_input_ids_array != 1).astype(int)
         truncated_encodings = {
-            "input_ids": truncated_input_ids,
-            "attention_mask": attention_masks,
         }
         outputs = self.model(**truncated_encodings)

         inputs = data.pop("inputs", data)
         encodings = self.tokenizer(
+            inputs, padding=False, truncation=False, return_tensors="pt"
         )
         truncated_input_ids = middle_truncate(
+            encodings["input_ids"][0].tolist(), self.MAX_LENGTH, self.tokenizer
         )
+        attention_masks = [
+            int(token_id != self.tokenizer.pad_token_id)
+            for token_id in truncated_input_ids
+        ]
         truncated_encodings = {
+            "input_ids": torch.tensor([truncated_input_ids]),
+            "attention_mask": torch.tensor([attention_masks]),
         }
         outputs = self.model(**truncated_encodings)