|
--- |
|
license: mit |
|
datasets: |
|
- CohereForAI/aya_collection_language_split |
|
metrics: |
|
- f1 |
|
- recall |
|
- precision |
|
language: |
|
- te |
|
- kn |
|
- gu |
|
- mr |
|
- ml |
|
- bn |
|
- pa |
|
- ta |
|
library_name: transformers |
|
--- |
|
This is based on [Kredor's work](https://huggingface.co/kredor/punctuate-all). But the languages are: Telugu, Tamil, Malayalam, Kannada, Gujarathi, Panjabi, Marathi and Bengali. |
|
|
|
----- report ----- |
|
|
|
precision recall f1-score support |
|
|
|
0 0.99 0.99 0.99 18156530 |
|
. 0.95 0.95 0.95 987478 |
|
, 0.82 0.79 0.80 1064002 |
|
? 0.97 0.96 0.97 316902 |
|
- 0.94 0.86 0.90 226991 |
|
: 0.94 0.96 0.95 262314 |
|
|
|
accuracy 0.97 21014217 |
|
macro avg 0.93 0.92 0.93 21014217 |
|
weighted avg 0.97 0.97 0.97 21014217 |
|
|
|
|
|
----- confusion matrix ----- |
|
|
|
t/p 0 . , ? - : |
|
0 1.0 0.0 0.0 0.0 0.0 0.0 |
|
. 0.0 1.0 0.0 0.0 0.0 0.0 |
|
, 0.2 0.0 0.8 0.0 0.0 0.0 |
|
? 0.0 0.0 0.0 1.0 0.0 0.0 |
|
- 0.1 0.0 0.0 0.0 0.9 0.0 |
|
: 0.0 0.0 0.0 0.0 0.0 1.0 |
|
|
|
|
|
## Install |
|
|
|
To get started install the package from [pypi](https://pypi.org/project/deepmultilingualpunctuation/): |
|
|
|
```bash |
|
pip install deepmultilingualpunctuation |
|
``` |
|
### Restore Punctuation |
|
```python |
|
from deepmultilingualpunctuation import PunctuationModel |
|
|
|
model = PunctuationModel('ModelsLab/punctuate-indic-v1') |
|
text = "హ్యారీ చాలా చిన్న వ్యవసాయ కలిగి ఒక పెద్ద పొలం కావాలని కలలు కనేవాడు ఒకసారి తన తండ్రి బిల్ ను అడిగాడు అక్కడి భూమి నాకు కావాలి నేను దాన్ని ఎలా పొందగలను" |
|
result = model.restore_punctuation(text) |
|
print(result) |
|
``` |
|
|
|
**output** |
|
> హ్యారీ చాలా చిన్న వ్యవసాయ కలిగి ఒక పెద్ద పొలం కావాలని కలలు కనేవాడు ఒకసారి తన తండ్రి బిల్ ను అడిగాడు, అక్కడి భూమి నాకు కావాలి, నేను దాన్ని ఎలా పొందగలను? |
|
|
|
### Predict Labels |
|
```python |
|
from deepmultilingualpunctuation import PunctuationModel |
|
|
|
model = PunctuationModel('ModelsLab/punctuate-indic-v1') |
|
text = "హ్యారీ చాలా చిన్న వ్యవసాయ కలిగి ఒక పెద్ద పొలం కావాలని కలలు కనేవాడు ఒకసారి తన తండ్రి బిల్ ను అడిగాడు అక్కడి భూమి నాకు కావాలి నేను దాన్ని ఎలా పొందగలను" |
|
clean_text = model.preprocess(text) |
|
labled_words = model.predict(clean_text) |
|
print(labled_words) |
|
``` |
|
|
|
**output** |
|
|
|
> ['హ్యారీ', '0', 0.7721978], |
|
['చాలా', '0', 0.9996537], |
|
['చిన్న', '0', 0.9703038], |
|
['వ్యవసాయ', '0', 0.99389863], |
|
['కలిగి', '0', 0.66695035], |
|
['ఒక', '0', 0.99995697], |
|
['పెద్ద', '0', 0.9995778], |
|
['పొలం', '0', 0.999982], |
|
['కావాలని', '0', 0.9995049], |
|
['కలలు', '0', 0.99998343], |
|
['కనేవాడు', '0', 0.3442819], |
|
['ఒకసారి', '0', 0.925744], |
|
['తన', '0', 0.9999279], |
|
['తండ్రి', '0', 0.82426786], |
|
['బిల్', '0', 0.9998516], |
|
['ను', '0', 0.99997056], |
|
['అడిగాడు', ',', 0.55599153], |
|
['అక్కడి', '0', 0.9996816], |
|
['భూమి', '0', 0.9978115], |
|
['నాకు', '0', 0.9999769], |
|
['కావాలి', ',', 0.873619], |
|
['నేను', '0', 0.99976164], |
|
['దాన్ని', '0', 0.999979], |
|
['ఎలా', '0', 0.99997866], |
|
['పొందగలను', '?', 0.9895349] |
|
|
|
|