pasha commited on
Commit
f211e1f
·
1 Parent(s): b820243

Readme updated

Browse files
Files changed (1) hide show
  1. README.md +35 -3
README.md CHANGED
@@ -1,3 +1,35 @@
1
- ---
2
- license: mit
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: mit
3
+ ---
4
+
5
+ # morphemizer - Morpheme-based Russian Tokenizer
6
+
7
+ В репозитории содержится только токенизатор.
8
+
9
+ На данный момент проект на ранней стадии разработки.
10
+
11
+ ## Как пользоваться
12
+
13
+ Для начала необходимо скачать пару библиотке:
14
+
15
+ ```shell
16
+ pip install transformers rumorpheme
17
+ ```
18
+
19
+ Небольшой пример использования:
20
+
21
+ ```python
22
+ from transformers import AutoTokenizer
23
+
24
+ # Wrap it with RuMorphemeTokenizerFast for compatibility with transformers
25
+ tokenizer = AutoTokenizer.from_pretrained("./tokenizer", trust_remote_code=True)
26
+
27
+ test_text = "Философское восприятие мира."
28
+ # test_text = "Привет! Как твои дела?"
29
+ input_ids = tokenizer.encode(test_text)
30
+
31
+ print("Text:", test_text)
32
+ print("Encoded:", input_ids)
33
+ print("Tokens:", tokenizer.convert_ids_to_tokens(input_ids))
34
+ print("Decoded:", tokenizer.decode(input_ids))
35
+ ```