Update README.md
Browse files
README.md
CHANGED
@@ -9,7 +9,7 @@ language:
|
|
9 |
|
10 |
French voice transcription model adjusted on more than 2,500 hours of audio (in French) from the base model Wav2Vec2 XLSR 53 from the R&D laboratory of MetaAI.
|
11 |
|
12 |
-
This model was trained on the same datasets as the [French model 0.9]() in order to compare the performance of the DeepSpeech2 architecture (DeepSpeech/STT+KenLM) and the CTC decoder of Wav2Vec2.
|
13 |
|
14 |
This is a distribution for research and evaluation purposes only under the Mozilla Public License version 2.0.
|
15 |
|
@@ -55,7 +55,7 @@ Also using a CTC decoder as an output scorer of an acoustic model, Wav2vec2, to
|
|
55 |
|
56 |
These advances can be seen in the measurements of the error rate per word (WER) and per character (CER) but also when using the model.
|
57 |
|
58 |
-
The next step would be to add, update and augment the acoustic model data with one or more background noise layers from various noise source environments (a fan, a car, a crowd of people, etc - c.f. Model 0.9 - ) but also by applying more essential transformations such as echo and other various distortions of the input. We could take advantage of advances in transformers to identify the noise and train a model to remove it and keep only the speech. We could then use the output of such a model as input to this one. This would greatly improve transcription accuracy under extreme noise conditions.
|
59 |
|
60 |
To improve the performance of the model on your data, it is recommended to adjust it on them.
|
61 |
|
@@ -65,7 +65,7 @@ Works with Transformers.
|
|
65 |
|
66 |
Modèle Français de transcription vocale ajusté sur plus de 2'500 heures d'audio (en français) à partir du modèle de base Wav2Vec2 XLSR 53 du laboratoire R&D de MetaAI.
|
67 |
|
68 |
-
Ce modèle à été entraîné sur les mêmes sets de données que le [modèle français 0.9]() afin de comparer les performances de l'architecture DeepSpeech2 (DeepSpeech/STT+KenLM) et du decoder CTC de Wav2Vec2.
|
69 |
|
70 |
Il s'agit d'une distribution uniquement déstinée à des fins de recherches et d'évaluation regie par la licence publique de Mozilla dans sa version 2.0.
|
71 |
|
@@ -111,7 +111,7 @@ Utilisant également un decoder CTC en tant que scorer en sortie d'un modèle ac
|
|
111 |
|
112 |
Ces avancées se perçoivent dans les mesures du taux d'erreur par mot (WER) et par caractère (CER) mais également lors de l'utilisation du modèle.
|
113 |
|
114 |
-
La prochaine étape consiterait à ajouter, mettre à jour et augmenter les données du modèle acoustique avec une ou plusieurs couches de bruit de fond provenant de divers environnements source de bruit (un ventilateur, une voiture, une foule de gens, etc - c.f. Modèle 0.9 - ) mais également en applicant des transformations plus essentielles tel que l'echo et autres diverses diformations de l'entrée. Nous pourrions profiter des avancées dans le domaine des transformers pour identifier le bruit et entraîner un modèle pour le supprimer et ne garder que le discours. Nous pourrions alors utiliser la sortie d'un tel modèle en entrée de celui-ci. Cela améliorerait grandement la precision de la transcription dans des conditions de bruit extrême.
|
115 |
|
116 |
Pour améliorer les performence du modèle sur vos données il est préconisé de l'ajuster sur celles-ci.
|
117 |
|
|
|
9 |
|
10 |
French voice transcription model adjusted on more than 2,500 hours of audio (in French) from the base model Wav2Vec2 XLSR 53 from the R&D laboratory of MetaAI.
|
11 |
|
12 |
+
This model was trained on the same datasets as the [French model 0.9](https://github.com/wasertech/commonvoice-fr/releases/tag/v0.9.0-fr-0.1) in order to compare the performance of the DeepSpeech2 architecture (DeepSpeech/STT+KenLM) and the CTC decoder of Wav2Vec2.
|
13 |
|
14 |
This is a distribution for research and evaluation purposes only under the Mozilla Public License version 2.0.
|
15 |
|
|
|
55 |
|
56 |
These advances can be seen in the measurements of the error rate per word (WER) and per character (CER) but also when using the model.
|
57 |
|
58 |
+
The next step would be to add, update and augment the acoustic model data with one or more background noise layers from various noise source environments (a fan, a car, a crowd of people, etc - c.f. [Model 0.9](https://github.com/wasertech/commonvoice-fr/releases/tag/v0.9.0-fr-0.1) - ) but also by applying more essential transformations such as echo and other various distortions of the input. We could take advantage of advances in transformers to identify the noise and train a model to remove it and keep only the speech. We could then use the output of such a model as input to this one. This would greatly improve transcription accuracy under extreme noise conditions.
|
59 |
|
60 |
To improve the performance of the model on your data, it is recommended to adjust it on them.
|
61 |
|
|
|
65 |
|
66 |
Modèle Français de transcription vocale ajusté sur plus de 2'500 heures d'audio (en français) à partir du modèle de base Wav2Vec2 XLSR 53 du laboratoire R&D de MetaAI.
|
67 |
|
68 |
+
Ce modèle à été entraîné sur les mêmes sets de données que le [modèle français 0.9](https://github.com/wasertech/commonvoice-fr/releases/tag/v0.9.0-fr-0.1) afin de comparer les performances de l'architecture DeepSpeech2 (DeepSpeech/STT+KenLM) et du decoder CTC de Wav2Vec2.
|
69 |
|
70 |
Il s'agit d'une distribution uniquement déstinée à des fins de recherches et d'évaluation regie par la licence publique de Mozilla dans sa version 2.0.
|
71 |
|
|
|
111 |
|
112 |
Ces avancées se perçoivent dans les mesures du taux d'erreur par mot (WER) et par caractère (CER) mais également lors de l'utilisation du modèle.
|
113 |
|
114 |
+
La prochaine étape consiterait à ajouter, mettre à jour et augmenter les données du modèle acoustique avec une ou plusieurs couches de bruit de fond provenant de divers environnements source de bruit (un ventilateur, une voiture, une foule de gens, etc - c.f. [Modèle 0.9](https://github.com/wasertech/commonvoice-fr/releases/tag/v0.9.0-fr-0.1) - ) mais également en applicant des transformations plus essentielles tel que l'echo et autres diverses diformations de l'entrée. Nous pourrions profiter des avancées dans le domaine des transformers pour identifier le bruit et entraîner un modèle pour le supprimer et ne garder que le discours. Nous pourrions alors utiliser la sortie d'un tel modèle en entrée de celui-ci. Cela améliorerait grandement la precision de la transcription dans des conditions de bruit extrême.
|
115 |
|
116 |
Pour améliorer les performence du modèle sur vos données il est préconisé de l'ajuster sur celles-ci.
|
117 |
|