aipicasso
/

commonart-beta

@@ -62,6 +62,78 @@ pip install transformers diffusers
 2. Run the following script
 ```python
 ```
 - diffusers for 8GB VRAM GPU
@@ -74,6 +146,79 @@ pip install transformers diffusers quanto
 2. Run the following script
 ```python
 ```
 ## Uses

 2. Run the following script
 ```python
+import torch
+from diffusers import Transformer2DModel, PixArtSigmaPipeline, AutoencoderKL, DPMSolverMultistepScheduler
+from transformers import AutoModelForCausalLM, AutoTokenizer
+# Prompts
+prompt = "カラフルなお花畑。赤、青、黄、紫、ピンクなどの色とりどりの花に溢れている。"
+neg_prompt=""
+# Settings
+device = "cuda"
+weight_dtype = torch.float32
+weight_dtype_te = torch.bfloat16
+generator = torch.Generator().manual_seed(44)
+# Load text encoder
+tokenizer = AutoTokenizer.from_pretrained("cyberagent/calm2-7b")
+text_encoder =  AutoModelForCausalLM.from_pretrained(
+    "cyberagent/calm2-7b",
+    torch_dtype=weight_dtype_te,
+    device_map=device
+)
+# Get text embeddings
+with torch.no_grad():
+    pos_ids = tokenizer(
+        prompt, max_length=512, padding="max_length", truncation=True, return_tensors="pt",
+    ).to(device)
+    pos_emb = text_encoder(pos_ids.input_ids, output_hidden_states=True, attention_mask=pos_ids.attention_mask)
+    pos_emb = pos_emb.hidden_states[-1]
+    neg_ids = tokenizer(
+        neg_prompt, max_length=512, padding="max_length", truncation=True, return_tensors="pt",
+    ).to(device)
+    neg_emb = text_encoder(neg_ids.input_ids, output_hidden_states=True, attention_mask=neg_ids.attention_mask)
+    neg_emb = neg_emb.hidden_states[-1]
+# Important
+del text_encoder
+# load models
+transformer = Transformer2DModel.from_pretrained(
+    "aipicasso/commonart-beta",
+    torch_dtype=weight_dtype
+)
+vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=weight_dtype)
+scheduler=DPMSolverMultistepScheduler()
+pipe = PixArtSigmaPipeline(
+    vae=vae,
+    tokenizer=None,
+    text_encoder=None,
+    transformer=transformer,
+    scheduler=scheduler
+)
+pipe.to(device)
+# Generate Image
+with torch.no_grad():
+    image = pipe(
+        negative_prompt=None,
+        prompt_embeds=pos_emb,
+        negative_prompt_embeds=neg_emb,
+        prompt_attention_mask=pos_ids.attention_mask,
+        negative_prompt_attention_mask=neg_ids.attention_mask,
+        max_sequence_length=512,
+        width=512,
+        height=512,
+        num_inference_steps=20,
+        generator=generator,
+        guidance_scale=4.5).images[0]
+image.save("flowers.png")
 ```
 - diffusers for 8GB VRAM GPU
 2. Run the following script
 ```python
+import torch
+from diffusers import Transformer2DModel, PixArtSigmaPipeline, AutoencoderKL, DPMSolverMultistepScheduler
+from transformers import AutoModelForCausalLM, AutoTokenizer, QuantoConfig
+# Prompts
+prompt = "カラフルなお花畑。赤、青、黄、紫、ピンクなどの色とりどりの花に溢れている。"
+neg_prompt=""
+# Settings
+device = "cuda"
+weight_dtype = torch.bfloat16
+weight_dtype_te = torch.bfloat16
+generator = torch.Generator().manual_seed(44)
+# Load text encoder
+tokenizer = AutoTokenizer.from_pretrained("cyberagent/calm2-7b")
+quantization_config = QuantoConfig(weights="int8")
+text_encoder =  AutoModelForCausalLM.from_pretrained(
+    "cyberagent/calm2-7b",
+    quantization_config=quantization_config,
+    torch_dtype=weight_dtype_te,
+    device_map=device
+)
+# Get text embeddings
+with torch.no_grad():
+    pos_ids = tokenizer(
+        prompt, max_length=512, padding="max_length", truncation=True, return_tensors="pt",
+    ).to(device)
+    pos_emb = text_encoder(pos_ids.input_ids, output_hidden_states=True, attention_mask=pos_ids.attention_mask)
+    pos_emb = pos_emb.hidden_states[-1]
+    neg_ids = tokenizer(
+        neg_prompt, max_length=512, padding="max_length", truncation=True, return_tensors="pt",
+    ).to(device)
+    neg_emb = text_encoder(neg_ids.input_ids, output_hidden_states=True, attention_mask=neg_ids.attention_mask)
+    neg_emb = neg_emb.hidden_states[-1]
+# Important
+del text_encoder
+# load models
+transformer = Transformer2DModel.from_pretrained(
+    "aipicasso/commonart-beta",
+    torch_dtype=weight_dtype
+)
+vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=weight_dtype)
+scheduler=DPMSolverMultistepScheduler()
+pipe = PixArtSigmaPipeline(
+    vae=vae,
+    tokenizer=None,
+    text_encoder=None,
+    transformer=transformer,
+    scheduler=scheduler
+)
+pipe.to(device)
+# Generate Image
+with torch.no_grad():
+    image = pipe(
+        negative_prompt=None,
+        prompt_embeds=pos_emb,
+        negative_prompt_embeds=neg_emb,
+        prompt_attention_mask=pos_ids.attention_mask,
+        negative_prompt_attention_mask=neg_ids.attention_mask,
+        max_sequence_length=512,
+        width=512,
+        height=512,
+        num_inference_steps=20,
+        generator=generator,
+        guidance_scale=4.5).images[0]
+image.save("flowers.png")
 ```
 ## Uses