Почему такая маленькая модель показывает такие замечательные результаты?
#4
by
Regrin
- opened
Здравствуйте!
Я очень удивлён, что нейросеть Мистраль и основанная на нём Сайга при таком малом числе параметров выдают такие замечательные результаты. Не могли бы вы объяснить, как этого удалось доиться? В чём секрет успеха?
Вопросы не ко мне, а ребятам из Мистраля. А у них ответ - крутая чистка данных для предобучения и хорошая архитектура (RoPE, RMSNorm, SWA, GQA).
IlyaGusev
changed discussion status to
closed