File size: 1,254 Bytes
f211e1f d8fe7bb f211e1f 668ae64 f211e1f 668ae64 f211e1f 668ae64 f211e1f |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 |
---
license: mit
---
# morphemizer - Morpheme-based Russian Tokenizer
Репозиторий содержит только токенизатор русского текста, данный токенизатор позволяет преобразовывать входные текстовые данные в последовательность токенов, каждый из которых представляет из себя морфемы из которых состоят слова.
В данный момент проект на ранней стадии разработки.
## Как пользоваться
Для начала необходимо скачать пару библиотек:
```shell
pip install transformers rumorpheme
```
Небольшой пример использования:
```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("evilfreelancer/morphemizer", trust_remote_code=True)
test_text = "Философское восприятие мира."
input_ids = tokenizer.encode(test_text)
print("Text:", test_text)
print("Encoded:", input_ids)
print("Tokens:", tokenizer.convert_ids_to_tokens(input_ids))
print("Decoded:", tokenizer.decode(input_ids))
```
|