Safetensors
Danish
whisper
hviske-v2 / README.md
mhenrichsen's picture
Update README.md
c4f30a3 verified
---
license: openrail
datasets:
- alexandrainst/coral
- mozilla-foundation/common_voice_17_0
language:
- da
base_model:
- openai/whisper-large-v3
metrics:
- wer
- cer
---
# Hviske v2
Hviske v2 er en *state of the art* dansk transskriptionsmodel der er trænet af [syv.ai](https://syv.ai). Modellen er gratis at bruge, men sørg for at være opmærksom på at brugen falder indenfor licensen.
Hviske v2 er en yderligere finetunet version af Whisper v3, med Coral & common voice datasæt.
Modellen er trænet over 10 dage med et enkelt Nvidia A100.
Du kan prøve modellen gratis via [Ludwig.syv.ai](https://ludwig.syv.ai).
## Sådan kommer du i gang
Installér transformers:
`pip install transformers datasets`
Kør koden:
```python
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "syvai/hviske-v2"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
"automatic-speech-recognition",
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
torch_dtype=torch_dtype,
device=device,
)
dataset = load_dataset("alexandrainst/coral", split="test")
sample = dataset[0]["audio"]
result = pipe(sample)
print(result["text"])
```
## Resultater
| Model | Antal parametre | CoRal CER | CoRal WER |
|---------------------------------------|----------------------|--------------------|--------------------|
| syvai/hviske-v2 | 1540M | **4.7% ± 0.07%** | **11.8% ± 0.3%** |
| alexandrainst/roest-315 | 315M | 6.6% ± 0.2% | 17.0% ± 0.4% |
| chcaa/xls-r-300m-danish-nst-cv9 | 315M | 14.4% ± 0.3% | 36.5% ± 0.6% |
| mhenrichsen/hviske | 1540M | 14.2% ± 0.5% | 33.2% ± 0.7% |
| openai/whisper-large-v3 | 1540M | 11.4% ± 0.3% | 28.3% ± 0.6% |
Hviske-v2 er ca. 30% bedre målt på WER end [roest](https://huggingface.co/alexandrainst/roest-315m) og ca. 64% bedre end Hviske-v1.
Visualiseret:
<img src="benchmark.png" alt="benchmark" width="800"/>
## Tak til
[Innovationsfonden](https://innovationsfonden.dk/da) og alle de parter der har været med til at lave CoRal datasættet. Det er virkelig et fantastisk stykke arbejde.
## Skal din virksomhed have hjælp?
[syv.ai](https://syv.ai) er Danmarks mest nørdede AI konsulenthus. Vi laver alt fra rådgivning af mindre virksomheder til AI udvikling hos verdens største virksomheder.