daisuke-hoshina
/

custom-lora-adapter-for-llm-jp-3-3.7b

Model card Files Files and versions Community

custom-lora-adapter-for-llm-jp-3-3.7b / sample.txt

daisuke-hoshina's picture

daisuke-hoshina

Rename README to sample.txt

4f80233 verified 3 months ago

history blame contribute delete

1.8 kB

	以下のコードで推論できます。

	# QLoRA config
	bnb_config = BitsAndBytesConfig(
	load_in_4bit=True,
	bnb_4bit_quant_type="nf4",
	bnb_4bit_compute_dtype=torch.bfloat16,
	)

	# Load model
	model = AutoModelForCausalLM.from_pretrained(
	base_model_id,
	quantization_config=bnb_config,
	device_map="auto",
	token = HF_TOKEN
	)

	# Load tokenizer
	tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True, token = HF_TOKEN)

	# 元のモデルにLoRAのアダプタを統合。
	model = PeftModel.from_pretrained(model, adapter_id, token = HF_TOKEN)

	# データセットの読み込み。
	# omnicampusの開発環境では、左にタスクのjsonlをドラッグアンドドロップしてから実行。
	datasets = []
	with open(dataset_file_path, "r") as f:
	item = ""
	for line in f:
	line = line.strip()
	item += line
	if item.endswith("}"):
	datasets.append(json.loads(item))
	item = ""

	# llmjp
	results = []
	for data in tqdm(datasets):

	input = data["input"]

	prompt = f"""### 指示
	{input}
	### 回答
	"""

	tokenized_input = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt").to("cuda")
	attention_mask = torch.ones_like(tokenized_input)
	with torch.no_grad():
	outputs = model.generate(
	tokenized_input,
	attention_mask=attention_mask,
	max_new_tokens=100,
	do_sample=False,
	repetition_penalty=1.2,
	pad_token_id=tokenizer.eos_token_id
	)[0]

	output = tokenizer.decode(outputs[tokenized_input.size(1):], skip_special_tokens=True)

	# output = tokenizer.decode(outputs[0][tokenized_input.size(1):], skip_special_tokens=True)

	results.append({"task_id": data["task_id"], "input": input, "output": output})