Ошибка в претокенизации
#1
by
gregkseno
- opened
Буквально недавно выяснилось, что для всех моделей на основе BPE llama.cpp применял дефолтную претокенизацию от GPT-2.
И, вроде, как я понял, необходимо переконвертировать .gguf
файлы, чтобы все хорошо работало. Иначе новая версия (0.2.68) llama-cpp-python выдает следующее предупреждение:
llm_load_vocab: missing pre-tokenizer type, using: 'default'
llm_load_vocab:
llm_load_vocab: ************************************
llm_load_vocab: GENERATION QUALITY WILL BE DEGRADED!
llm_load_vocab: CONSIDER REGENERATING THE MODEL
llm_load_vocab: ************************************
Edit:
Вот метод, который я использовал, чтобы конвертировать модель:
- Скачиваем модель с помощью python скрипта:
from huggingface_hub import snapshot_download
model_id="IlyaGusev/saiga_llama3_8b"
snapshot_download(repo_id=model_id, local_dir="llama_v3",
local_dir_use_symlinks=False, revision="main")
- Клонируем репозиторий llama.cpp
- Устанавливаем требования
pip install -r llama.cpp/requirements.txt
- Конвертируем скачанную модель в .gguf файл следующей командой:
python -m convert-hf-to-gguf /path/to/llama_dir \
--outfile saiga_llama3_8b_gguf \
--outtype f16 --use-temp-file
- Квантуем модель в необходимый формат, например Q4_K:
./quantize /path/to/llama_dir/saiga_llama3_8b.gguf /path/to/llama_dir/saiga_llama3_8b_q4_K.gguf Q4_K
здравствуйте, пытаюсь конвертировать модель в gguf, как здесь написано. конвертация прошла, удалось загрузить модельку в олламу, но модель на все запросы отвечает: "3333333333333333333333333333333". Подскажите пожалуйста как это можно поправить?
gregkseno
changed discussion status to
closed