|
--- |
|
license: mit |
|
--- |
|
|
|
# morphemizer - Morpheme-based Russian Tokenizer |
|
|
|
Репозиторий содержит только токенизатор русского текста, данный токенизатор позволяет преобразовывать входные текстовые данные в последовательность токенов, каждый из которых представляет из себя морфемы из которых состоят слова. |
|
|
|
В данный момент проект на ранней стадии разработки. |
|
|
|
## Как пользоваться |
|
|
|
Для начала необходимо скачать пару библиотек: |
|
|
|
```shell |
|
pip install transformers rumorpheme |
|
``` |
|
|
|
Небольшой пример использования: |
|
|
|
```python |
|
from transformers import AutoTokenizer |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("evilfreelancer/morphemizer", trust_remote_code=True) |
|
test_text = "Философское восприятие мира." |
|
input_ids = tokenizer.encode(test_text) |
|
|
|
print("Text:", test_text) |
|
print("Encoded:", input_ids) |
|
print("Tokens:", tokenizer.convert_ids_to_tokens(input_ids)) |
|
print("Decoded:", tokenizer.decode(input_ids)) |
|
``` |
|
|