--- license: mit --- # morphemizer - Morpheme-based Russian Tokenizer Репозиторий содержит только токенизатор русского текста, данный токенизатор позволяет преобразовывать входные текстовые данные в последовательность токенов, каждый из которых представляет из себя морфемы из которых состоят слова. В данный момент проект на ранней стадии разработки. ## Как пользоваться Для начала необходимо скачать пару библиотек: ```shell pip install transformers rumorpheme ``` Небольшой пример использования: ```python from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("evilfreelancer/morphemizer", trust_remote_code=True) test_text = "Философское восприятие мира." input_ids = tokenizer.encode(test_text) print("Text:", test_text) print("Encoded:", input_ids) print("Tokens:", tokenizer.convert_ids_to_tokens(input_ids)) print("Decoded:", tokenizer.decode(input_ids)) ```