--- license: openrail datasets: - alexandrainst/coral - mozilla-foundation/common_voice_17_0 language: - da base_model: - openai/whisper-large-v3 metrics: - wer - cer --- # Hviske v2 Hviske v2 er en *state of the art* dansk transskriptionsmodel der er trænet af [syv.ai](https://syv.ai). Modellen er gratis at bruge, men sørg for at være opmærksom på at brugen falder indenfor licensen. Hviske v2 er en yderligere finetunet version af Whisper v3, med Coral & common voice datasæt. Modellen er trænet over 10 dage med et enkelt Nvidia A100. Du kan prøve modellen gratis via [Ludwig.syv.ai](https://ludwig.syv.ai). ## Sådan kommer du i gang Installér transformers: `pip install transformers datasets` Kør koden: ```python import torch from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline from datasets import load_dataset device = "cuda:0" if torch.cuda.is_available() else "cpu" torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32 model_id = "syvai/hviske-v2" model = AutoModelForSpeechSeq2Seq.from_pretrained( model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True ) model.to(device) processor = AutoProcessor.from_pretrained(model_id) pipe = pipeline( "automatic-speech-recognition", model=model, tokenizer=processor.tokenizer, feature_extractor=processor.feature_extractor, torch_dtype=torch_dtype, device=device, ) dataset = load_dataset("alexandrainst/coral", split="test") sample = dataset[0]["audio"] result = pipe(sample) print(result["text"]) ``` ## Resultater | Model | Antal parametre | CoRal CER | CoRal WER | |---------------------------------------|----------------------|--------------------|--------------------| | syvai/hviske-v2 | 1540M | **4.7% ± 0.07%** | **11.8% ± 0.3%** | | alexandrainst/roest-315 | 315M | 6.6% ± 0.2% | 17.0% ± 0.4% | | chcaa/xls-r-300m-danish-nst-cv9 | 315M | 14.4% ± 0.3% | 36.5% ± 0.6% | | mhenrichsen/hviske | 1540M | 14.2% ± 0.5% | 33.2% ± 0.7% | | openai/whisper-large-v3 | 1540M | 11.4% ± 0.3% | 28.3% ± 0.6% | Hviske-v2 er ca. 30% bedre målt på WER end [roest](https://huggingface.co/alexandrainst/roest-315m) og ca. 64% bedre end Hviske-v1. Visualiseret: benchmark ## Tak til [Innovationsfonden](https://innovationsfonden.dk/da) og alle de parter der har været med til at lave CoRal datasættet. Det er virkelig et fantastisk stykke arbejde. ## Skal din virksomhed have hjælp? [syv.ai](https://syv.ai) er Danmarks mest nørdede AI konsulenthus. Vi laver alt fra rådgivning af mindre virksomheder til AI udvikling hos verdens største virksomheder.