nvidia
/

multilingual-domain-classifier

Safetensors

deberta-v2

model_hub_mixin

pytorch_model_hub_mixin

Model card Files Files and versions Community

sarahyurick commited on 15 days ago

Commit

752ebca

•

1 Parent(s): 0d45ab1

Update README.md

Browse files

Files changed (1) hide show

README.md +59 -55

README.md CHANGED Viewed

@@ -8,64 +8,65 @@ license: other
 # Model Overview
 This is a multilingual text classification model that can enable data annotation, creation of domain-specific blends and the addition of metadata tags. The model classifies documents into one of 26 domain classes:
-'Adult', 'Arts_and_Entertainment', 'Autos_and_Vehicles', 'Beauty_and_Fitness', 'Books_and_Literature', 'Business_and_Industrial', 'Computers_and_Electronics', 'Finance', 'Food_and_Drink', 'Games', 'Health', 'Hobbies_and_Leisure', 'Home_and_Garden', 'Internet_and_Telecom', 'Jobs_and_Education', 'Law_and_Government', 'News', 'Online_Communities', 'People_and_Society', 'Pets_and_Animals', 'Real_Estate', 'Science', 'Sensitive_Subjects', 'Shopping', 'Sports', 'Travel_and_Transportation'
-It supports 52 languages (English and 51 other languages) : 'ar', 'az', 'bg', 'bn', 'ca', 'cs', 'da', 'de', 'el', 'es', 'et', 'fa', 'fi', 'fr', 'gl', 'he', 'hi', 'hr', 'hu', 'hy', 'id', 'is', 'it', 'ka', 'kk', 'kn', 'ko', 'lt', 'lv', 'mk', 'ml', 'mr', 'ne', 'nl', 'no', 'pl', 'pt', 'ro', 'ru', 'sk', 'sl', 'sq', 'sr', 'sv', 'ta', 'tr', 'uk', 'ur', 'vi', 'ja', 'zh'
 ```
-Code	Language Name
-ar	Arabic
-az	Azerbaijani
-bg	Bulgarian
-bn	Bengali
-ca	Catalan
-cs	Czech
-da	Danish
-de	German
-el	Greek
-es	Spanish
-et	Estonian
-fa	Persian
-fi	Finnish
-fr	French
-gl	Galician
-he	Hebrew
-hi	Hindi
-hr	Croatian
-hu	Hungarian
-hy	Armenian
-id	Indonesian
-is	Icelandic
-it	Italian
-ka	Georgian
-kk	Kazakh
-kn	Kannada
-ko	Korean
-lt	Lithuanian
-lv	Latvian
-mk	Macedonian
-ml	Malayalam
-mr	Marathi
-ne	Nepali
-nl	Dutch
-no	Norwegian
-pl	Polish
-pt	Portuguese
-ro	Romanian
-ru	Russian
-sk	Slovak
-sl	Slovenian
-sq	Albanian
-sr	Serbian
-sv	Swedish
-ta	Tamil
-tr	Turkish
-uk	Ukrainian
-ur	Urdu
-vi	Vietnamese
-ja	Japanese
-zh	Chinese
 ```
 # License
 This model is released under the [NVIDIA Open Model License Agreement](https://developer.download.nvidia.com/licenses/nvidia-open-model-license-agreement-june-2024.pdf).
@@ -126,6 +127,9 @@ Arts_and_Entertainment
 ## Evaluation
 - Metric: PR-AUC
 # Inference
 - Engine: PyTorch
 - Test Hardware: V100

 # Model Overview
 This is a multilingual text classification model that can enable data annotation, creation of domain-specific blends and the addition of metadata tags. The model classifies documents into one of 26 domain classes:
 ```
+'Adult', 'Arts_and_Entertainment', 'Autos_and_Vehicles', 'Beauty_and_Fitness', 'Books_and_Literature', 'Business_and_Industrial', 'Computers_and_Electronics', 'Finance', 'Food_and_Drink', 'Games', 'Health', 'Hobbies_and_Leisure', 'Home_and_Garden', 'Internet_and_Telecom', 'Jobs_and_Education', 'Law_and_Government', 'News', 'Online_Communities', 'People_and_Society', 'Pets_and_Animals', 'Real_Estate', 'Science', 'Sensitive_Subjects', 'Shopping', 'Sports', 'Travel_and_Transportation'
 ```
+It supports 52 languages (English and 51 other languages):
+| Code | Language Name  |
+|------|----------------|
+| ar   | Arabic         |
+| az   | Azerbaijani    |
+| bg   | Bulgarian      |
+| bn   | Bengali        |
+| ca   | Catalan        |
+| cs   | Czech          |
+| da   | Danish         |
+| de   | German         |
+| el   | Greek          |
+| es   | Spanish        |
+| et   | Estonian       |
+| fa   | Persian        |
+| fi   | Finnish        |
+| fr   | French         |
+| gl   | Galician       |
+| he   | Hebrew         |
+| hi   | Hindi          |
+| hr   | Croatian       |
+| hu   | Hungarian      |
+| hy   | Armenian       |
+| id   | Indonesian     |
+| is   | Icelandic      |
+| it   | Italian        |
+| ka   | Georgian       |
+| kk   | Kazakh         |
+| kn   | Kannada        |
+| ko   | Korean         |
+| lt   | Lithuanian     |
+| lv   | Latvian        |
+| mk   | Macedonian     |
+| ml   | Malayalam      |
+| mr   | Marathi        |
+| ne   | Nepali         |
+| nl   | Dutch          |
+| no   | Norwegian      |
+| pl   | Polish         |
+| pt   | Portuguese     |
+| ro   | Romanian       |
+| ru   | Russian        |
+| sk   | Slovak         |
+| sl   | Slovenian      |
+| sq   | Albanian       |
+| sr   | Serbian        |
+| sv   | Swedish        |
+| ta   | Tamil          |
+| tr   | Turkish        |
+| uk   | Ukrainian      |
+| ur   | Urdu           |
+| vi   | Vietnamese     |
+| ja   | Japanese       |
+| zh   | Chinese        |
 # License
 This model is released under the [NVIDIA Open Model License Agreement](https://developer.download.nvidia.com/licenses/nvidia-open-model-license-agreement-june-2024.pdf).
 ## Evaluation
 - Metric: PR-AUC
+PR-AUC by language:
+<img src="https://huggingface.co/nvidia/multilingual-domain-classifier/resolve/main/pr_auc_by_language.PNG" alt="pr_auc_by_language" style="width:750px;">
 # Inference
 - Engine: PyTorch
 - Test Hardware: V100