!!!!!!!!!!!!!!!!!!!!!!!!!

ДЕПРЕКЕЙТЕД ПОТОМУ ЧТО ТЕПЕРЬ ЕСТЬ https://huggingface.co/screamuch/kunteynir-lyrics-ruadapt_llama2_7b

!!!!!!!!!!!!!!!!!!!!!!!!!

Not For Any Audiences!!!

Чем я хуже лошади
Курю на красной площади
Тощий, как береза в роще
Варю щи
Сейчас в дрищи
Ищу пищу
Пищи как мышка
Кури шишку

(с) блев мс 2007

что это

ллама2 русская (rccmsu/ruadapt_llama2_7b_v0.1) натренированная на текстах группы kunteynir. забыл добавить текста блева (он на даче), вероятно позже натренькаю модель которая включает и его замечательные стихи.

работает криво как гпт-2 ну и шо

как это получилось

датасет собрал с гениуса, потом через crestf411/daybreak-kunoichi-2dpo-7b-gguf сгенерировал описания для каждого куплета

текста взял с 2005 ("в гавно") по 2014 ("основа") только из полноценных релизов группы. около 120кб текста. это простой эксперимент, в конце концов, в будущем надо добавить нерелизнутое золото вроде "меняю СР на коран" и "городской романтики"

тренировал на 1000 шагах на кастомном датасете текстов и их описаний, лосс после 600 колебался ниже 0.02

часа 2-3 ушло на все это дело на Т4 с kaggle, изи катка

как это использовать

работает на кагле с 29гб RAM и 15гб VRAM (T4)

загрузить модель:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

if torch.cuda.is_available():
    device = torch.device("cuda")
    print("Using GPU:", torch.cuda.get_device_name(0))

    model = AutoModelForCausalLM.from_pretrained("screamuch/kunteynir-no-blev-ruadapt_llama2_7b")
    tokenizer = AutoTokenizer.from_pretrained("screamuch/kunteynir-no-blev-ruadapt_llama2_7b")

    model = model.half()  # вот это важно почему-то, я хз

    model.to(device)

написать текста:

input_text = """### Input:

Напиши куплет в стиле Паши Техника про шепчащийся человека, который закончил работу в больнице и хочет делиться своим вечерним опытом на пути до дома, где он направляется в кабинет уролога по талону и сталкивается с разными сценaми, включая спящую пациентку и неповиновение требованию снять куртку Stone Island и пойти на третий этаж в лабораторию. Автор использует юмор и игру слов на тему медицины и ходжефукса во время этого рассказа.

### Response:
"""
input_ids = tokenizer.encode(input_text, return_tensors="pt")

input_ids = input_ids.to(device)

output_ids = model.generate(input_ids, max_length=500, num_beams=2, early_stopping=True)

generated_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(generated_text)

советы:

чем более отбитый и странный промпт, тем угарнее получается результат. тот же дейбрейк-куноичи отлично справится с генерацией какой-нибудь ереси
промпт надо начинать с Напиши куплет в стиле Паши Техника/Кальмара/Максима Синицына/Блева про для более качественного ответа

пример

самый адекватный для публикации и качественный какой смог найти

### Input:

Напиши куплет в стиле Паши Техника про лысого человека, который ищет шишки, а также упоминает Джунгли (возможно, название места или группы), Маугли Багира и Иру в связке с второй ночью, во время которой они веселятся с чипсами и сыром. Автор также находится в атмосфере дыма от трубы и пива.

### Response:
О чём говорим, о чём пишем
Лысый, не тупи, доставай шиши
Извини, это все, что я могу сказать
Слышь, Юру, Иру, держи его за яйца
Вторую ночь под порохом ебашим
Чипсы с сыром, это всегда круто
Под дымом куря опиум, пиво выкуриваю
Напоминаю, что ты был с нами в Джунглях
Мы тебя не забыли
В лесу были мы, Маугли и Багира
Наш дом утек в океан
Давно не видел набухший хуй
Но сейчас у меня бомба в кармане
И свет, и газ

### End:

туду лист

добавить текста блева в тренировочный сет (+30кб)
добавить текста из нерелизнутых треков в тренировочный сет (+170кб)
собрать это дело в квантайзд ггуф который можно запускать на православном llama.cpp (ЕСЛИ ЕСТЬ ЖЕЛАНИЕ МНЕ ПОМОЧЬ С ЭТИМ - ПИШИТЕ!)

да и вообще пишите

если вдруг используете в творчестве, я с удовольствием поору с ваших треков или что вы там еще сделаете с этим