backend_demo

Paused

Shaltiel commited on Mar 18

Commit

d47ac37

•

1 Parent(s): 5f1bc85

added support for 8bit, 4bit, gpq

Files changed (1) hide show

src/backend/manage_requests.py CHANGED Viewed

@@ -29,11 +29,11 @@ class EvalRequest:
         if self.precision in ["float16", "bfloat16", "float32"]:
             model_args += f",dtype={self.precision}"
         # Quantized models need some added config, the install of bits and bytes, etc
-        #elif self.precision == "8bit":
-        #    model_args += ",load_in_8bit=True"
-        #elif self.precision == "4bit":
-        #    model_args += ",load_in_4bit=True"
-        #elif self.precision == "GPTQ":
             # A GPTQ model does not need dtype to be specified,
             # it will be inferred from the config
             pass

         if self.precision in ["float16", "bfloat16", "float32"]:
             model_args += f",dtype={self.precision}"
         # Quantized models need some added config, the install of bits and bytes, etc
+        elif self.precision == "8bit":
+           model_args += ",load_in_8bit=True"
+        elif self.precision == "4bit":
+           model_args += ",load_in_4bit=True"
+        elif self.precision == "GPTQ":
             # A GPTQ model does not need dtype to be specified,
             # it will be inferred from the config
             pass