YuEの4bit量子化+onnx形式への変換モデルです。

ベースモデル
m-a-p/YuE-s2-1B-general
上記のモデルを4bit量子化とonnx形式へ変換したモデルです。
性能劣化がありますのでご注意ください。

githubにて、このモデルを使用したツールを作成中です。
YuE-q4onnx-win

変換方法

Generate models using Model Builder
https://onnxruntime.ai/docs/genai/howto/build-model.html
適当なフォルダに仮想環境を作り、onnxruntime(optimum)とonnxruntime-genaiをインストールします。
私はwindows11+python 3.10で実行しました。
また、pwshを使用していますので、コマンドプロンプトの場合は適当に読み替えてください。

python -m venv venv
venv\Scripts\activate
# linuxなら↓
venv/Script/activate

pip install optimum[onnxruntime]
pip install --pre onnxruntime-genai

python -m onnxruntime_genai.models.builder -m m-a-p/YuE-s2-1B-general -o ./onnx_models/YuE-s2-1B-general-onnx-q4 -p int4 -e cuda -c ./models/
curl https://huggingface.co/m-a-p/YuE-s2-1B-general/resolve/main/config.json?download=true > ./onnx_models/YuE-s2-1B-general-onnx-q4/config.json
Downloads last month
4
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.

Model tree for siouni/YuE-s2-1B-general-onnx-q4

Quantized
(9)
this model