|
--- |
|
license: openrail |
|
datasets: |
|
- alexandrainst/coral |
|
- mozilla-foundation/common_voice_17_0 |
|
language: |
|
- da |
|
base_model: |
|
- openai/whisper-large-v3 |
|
metrics: |
|
- wer |
|
- cer |
|
--- |
|
|
|
# Hviske v2 |
|
Hviske v2 er en *state of the art* dansk transskriptionsmodel der er trænet af [syv.ai](https://syv.ai). Modellen er gratis at bruge, men sørg for at være opmærksom på at brugen falder indenfor licensen. |
|
|
|
Hviske v2 er en yderligere finetunet version af Whisper v3, med Coral & common voice datasæt. |
|
|
|
Modellen er trænet over 10 dage med et enkelt Nvidia A100. |
|
|
|
Du kan prøve modellen gratis via [Ludwig.syv.ai](https://ludwig.syv.ai). |
|
|
|
## Sådan kommer du i gang |
|
|
|
Installér transformers: |
|
`pip install transformers datasets` |
|
|
|
Kør koden: |
|
```python |
|
import torch |
|
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline |
|
from datasets import load_dataset |
|
|
|
|
|
device = "cuda:0" if torch.cuda.is_available() else "cpu" |
|
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32 |
|
|
|
model_id = "syvai/hviske-v2" |
|
|
|
model = AutoModelForSpeechSeq2Seq.from_pretrained( |
|
model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True |
|
) |
|
model.to(device) |
|
|
|
processor = AutoProcessor.from_pretrained(model_id) |
|
|
|
pipe = pipeline( |
|
"automatic-speech-recognition", |
|
model=model, |
|
tokenizer=processor.tokenizer, |
|
feature_extractor=processor.feature_extractor, |
|
torch_dtype=torch_dtype, |
|
device=device, |
|
) |
|
|
|
dataset = load_dataset("alexandrainst/coral", split="test") |
|
sample = dataset[0]["audio"] |
|
|
|
result = pipe(sample) |
|
print(result["text"]) |
|
``` |
|
|
|
## Resultater |
|
|
|
| Model | Antal parametre | CoRal CER | CoRal WER | |
|
|---------------------------------------|----------------------|--------------------|--------------------| |
|
| syvai/hviske-v2 | 1540M | **4.7% ± 0.07%** | **11.8% ± 0.3%** | |
|
| alexandrainst/roest-315 | 315M | 6.6% ± 0.2% | 17.0% ± 0.4% | |
|
| chcaa/xls-r-300m-danish-nst-cv9 | 315M | 14.4% ± 0.3% | 36.5% ± 0.6% | |
|
| mhenrichsen/hviske | 1540M | 14.2% ± 0.5% | 33.2% ± 0.7% | |
|
| openai/whisper-large-v3 | 1540M | 11.4% ± 0.3% | 28.3% ± 0.6% | |
|
|
|
Hviske-v2 er ca. 30% bedre målt på WER end [roest](https://huggingface.co/alexandrainst/roest-315m) og ca. 64% bedre end Hviske-v1. |
|
|
|
Visualiseret: |
|
<img src="benchmark.png" alt="benchmark" width="800"/> |
|
|
|
## Tak til |
|
[Innovationsfonden](https://innovationsfonden.dk/da) og alle de parter der har været med til at lave CoRal datasættet. Det er virkelig et fantastisk stykke arbejde. |
|
|
|
|
|
## Skal din virksomhed have hjælp? |
|
[syv.ai](https://syv.ai) er Danmarks mest nørdede AI konsulenthus. Vi laver alt fra rådgivning af mindre virksomheder til AI udvikling hos verdens største virksomheder. |