syvai
/

hviske-v2

Model card Files Files and versions Community

hviske-v2 / README.md

mhenrichsen's picture

Update README.md

c4f30a3 verified about 1 month ago

|

history blame contribute delete

2.95 kB

	---
	license: openrail
	datasets:
	- alexandrainst/coral
	- mozilla-foundation/common_voice_17_0
	language:
	- da
	base_model:
	- openai/whisper-large-v3
	metrics:
	- wer
	- cer
	---

	# Hviske v2
	Hviske v2 er en state of the art dansk transskriptionsmodel der er trænet af [syv.ai](https://syv.ai). Modellen er gratis at bruge, men sørg for at være opmærksom på at brugen falder indenfor licensen.

	Hviske v2 er en yderligere finetunet version af Whisper v3, med Coral & common voice datasæt.

	Modellen er trænet over 10 dage med et enkelt Nvidia A100.

	Du kan prøve modellen gratis via [Ludwig.syv.ai](https://ludwig.syv.ai).

	## Sådan kommer du i gang

	Installér transformers:
	`pip install transformers datasets`

	Kør koden:
	```python
	import torch
	from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
	from datasets import load_dataset


	device = "cuda:0" if torch.cuda.is_available() else "cpu"
	torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

	model_id = "syvai/hviske-v2"

	model = AutoModelForSpeechSeq2Seq.from_pretrained(
	model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
	)
	model.to(device)

	processor = AutoProcessor.from_pretrained(model_id)

	pipe = pipeline(
	"automatic-speech-recognition",
	model=model,
	tokenizer=processor.tokenizer,
	feature_extractor=processor.feature_extractor,
	torch_dtype=torch_dtype,
	device=device,
	)

	dataset = load_dataset("alexandrainst/coral", split="test")
	sample = dataset[0]["audio"]

	result = pipe(sample)
	print(result["text"])
	```

	## Resultater

	\| Model \| Antal parametre \| CoRal CER \| CoRal WER \|
	\|---------------------------------------\|----------------------\|--------------------\|--------------------\|
	\| syvai/hviske-v2 \| 1540M \| 4.7% ± 0.07% \| 11.8% ± 0.3% \|
	\| alexandrainst/roest-315 \| 315M \| 6.6% ± 0.2% \| 17.0% ± 0.4% \|
	\| chcaa/xls-r-300m-danish-nst-cv9 \| 315M \| 14.4% ± 0.3% \| 36.5% ± 0.6% \|
	\| mhenrichsen/hviske \| 1540M \| 14.2% ± 0.5% \| 33.2% ± 0.7% \|
	\| openai/whisper-large-v3 \| 1540M \| 11.4% ± 0.3% \| 28.3% ± 0.6% \|

	Hviske-v2 er ca. 30% bedre målt på WER end [roest](https://huggingface.co/alexandrainst/roest-315m) og ca. 64% bedre end Hviske-v1.

	Visualiseret:
	<img src="benchmark.png" alt="benchmark" width="800"/>

	## Tak til
	[Innovationsfonden](https://innovationsfonden.dk/da) og alle de parter der har været med til at lave CoRal datasættet. Det er virkelig et fantastisk stykke arbejde.


	## Skal din virksomhed have hjælp?
	[syv.ai](https://syv.ai) er Danmarks mest nørdede AI konsulenthus. Vi laver alt fra rådgivning af mindre virksomheder til AI udvikling hos verdens største virksomheder.