morphemizer / README.md
pasha
Readme updated
d8fe7bb
|
raw
history blame
1.25 kB
---
license: mit
---
# morphemizer - Morpheme-based Russian Tokenizer
Репозиторий содержит только токенизатор русского текста, данный токенизатор позволяет преобразовывать входные текстовые данные в последовательность токенов, каждый из которых представляет из себя морфемы из которых состоят слова.
В данный момент проект на ранней стадии разработки.
## Как пользоваться
Для начала необходимо скачать пару библиотек:
```shell
pip install transformers rumorpheme
```
Небольшой пример использования:
```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("evilfreelancer/morphemizer", trust_remote_code=True)
test_text = "Философское восприятие мира."
input_ids = tokenizer.encode(test_text)
print("Text:", test_text)
print("Encoded:", input_ids)
print("Tokens:", tokenizer.convert_ids_to_tokens(input_ids))
print("Decoded:", tokenizer.decode(input_ids))
```