apoorvkh
/

blip2-flan-t5-xxl-endpoint

Inference Endpoints

Model card Files Files and versions Community

apoorvkh commited on Jun 18, 2023

Commit

e68919f

•

1 Parent(s): 76aff17

Updated bitsandbytes config

Files changed (1) hide show

handler.py +3 -3

handler.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from typing import Dict, Any
 import torch
-from transformers import Blip2Processor, Blip2Config, Blip2ForConditionalGeneration
 from accelerate import init_empty_weights, infer_auto_device_map
 from PIL import Image
@@ -19,11 +19,11 @@ class EndpointHandler():
             model = Blip2ForConditionalGeneration(config)
             device_map = infer_auto_device_map(model, no_split_module_classes=["T5Block"])
         device_map['language_model.lm_head'] = device_map["language_model.encoder.embed_tokens"]
         self.model = Blip2ForConditionalGeneration.from_pretrained(
             "Salesforce/blip2-flan-t5-xxl", device_map=device_map,
             torch_dtype=torch.float16,
-            load_in_8bit=True, load_in_8bit_fp32_cpu_offload=True
         )
     def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:

 from typing import Dict, Any
 import torch
+from transformers import Blip2Processor, Blip2Config, Blip2ForConditionalGeneration, BitsAndBytesConfig
 from accelerate import init_empty_weights, infer_auto_device_map
 from PIL import Image
             model = Blip2ForConditionalGeneration(config)
             device_map = infer_auto_device_map(model, no_split_module_classes=["T5Block"])
         device_map['language_model.lm_head'] = device_map["language_model.encoder.embed_tokens"]
         self.model = Blip2ForConditionalGeneration.from_pretrained(
             "Salesforce/blip2-flan-t5-xxl", device_map=device_map,
             torch_dtype=torch.float16,
+            quantization_config=BitsAndBytesConfig(load_in_8bit=True, llm_int8_enable_fp32_cpu_offload=True)
         )
     def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]: