File size: 1,254 Bytes
f211e1f
 
 
 
 
 
d8fe7bb
f211e1f
668ae64
f211e1f
 
 
668ae64
f211e1f
 
 
 
 
 
 
 
 
 
668ae64
f211e1f
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
---
license: mit
---

# morphemizer - Morpheme-based Russian Tokenizer

Репозиторий содержит только токенизатор русского текста, данный токенизатор позволяет преобразовывать входные текстовые данные в последовательность токенов, каждый из которых представляет из себя морфемы из которых состоят слова.

В данный момент проект на ранней стадии разработки.

## Как пользоваться

Для начала необходимо скачать пару библиотек:

```shell
pip install transformers rumorpheme
```

Небольшой пример использования:

```python
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("evilfreelancer/morphemizer", trust_remote_code=True)
test_text = "Философское восприятие мира."
input_ids = tokenizer.encode(test_text)

print("Text:", test_text)
print("Encoded:", input_ids)
print("Tokens:", tokenizer.convert_ids_to_tokens(input_ids))
print("Decoded:", tokenizer.decode(input_ids))
```