wasertech commited on
Commit
9047d83
1 Parent(s): 3460f25

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -4
README.md CHANGED
@@ -9,7 +9,7 @@ language:
9
 
10
  French voice transcription model adjusted on more than 2,500 hours of audio (in French) from the base model Wav2Vec2 XLSR 53 from the R&D laboratory of MetaAI.
11
 
12
- This model was trained on the same datasets as the [French model 0.9]() in order to compare the performance of the DeepSpeech2 architecture (DeepSpeech/STT+KenLM) and the CTC decoder of Wav2Vec2.
13
 
14
  This is a distribution for research and evaluation purposes only under the Mozilla Public License version 2.0.
15
 
@@ -55,7 +55,7 @@ Also using a CTC decoder as an output scorer of an acoustic model, Wav2vec2, to
55
 
56
  These advances can be seen in the measurements of the error rate per word (WER) and per character (CER) but also when using the model.
57
 
58
- The next step would be to add, update and augment the acoustic model data with one or more background noise layers from various noise source environments (a fan, a car, a crowd of people, etc - c.f. Model 0.9 - ) but also by applying more essential transformations such as echo and other various distortions of the input. We could take advantage of advances in transformers to identify the noise and train a model to remove it and keep only the speech. We could then use the output of such a model as input to this one. This would greatly improve transcription accuracy under extreme noise conditions.
59
 
60
  To improve the performance of the model on your data, it is recommended to adjust it on them.
61
 
@@ -65,7 +65,7 @@ Works with Transformers.
65
 
66
  Modèle Français de transcription vocale ajusté sur plus de 2'500 heures d'audio (en français) à partir du modèle de base Wav2Vec2 XLSR 53 du laboratoire R&D de MetaAI.
67
 
68
- Ce modèle à été entraîné sur les mêmes sets de données que le [modèle français 0.9]() afin de comparer les performances de l'architecture DeepSpeech2 (DeepSpeech/STT+KenLM) et du decoder CTC de Wav2Vec2.
69
 
70
  Il s'agit d'une distribution uniquement déstinée à des fins de recherches et d'évaluation regie par la licence publique de Mozilla dans sa version 2.0.
71
 
@@ -111,7 +111,7 @@ Utilisant également un decoder CTC en tant que scorer en sortie d'un modèle ac
111
 
112
  Ces avancées se perçoivent dans les mesures du taux d'erreur par mot (WER) et par caractère (CER) mais également lors de l'utilisation du modèle.
113
 
114
- La prochaine étape consiterait à ajouter, mettre à jour et augmenter les données du modèle acoustique avec une ou plusieurs couches de bruit de fond provenant de divers environnements source de bruit (un ventilateur, une voiture, une foule de gens, etc - c.f. Modèle 0.9 - ) mais également en applicant des transformations plus essentielles tel que l'echo et autres diverses diformations de l'entrée. Nous pourrions profiter des avancées dans le domaine des transformers pour identifier le bruit et entraîner un modèle pour le supprimer et ne garder que le discours. Nous pourrions alors utiliser la sortie d'un tel modèle en entrée de celui-ci. Cela améliorerait grandement la precision de la transcription dans des conditions de bruit extrême.
115
 
116
  Pour améliorer les performence du modèle sur vos données il est préconisé de l'ajuster sur celles-ci.
117
 
 
9
 
10
  French voice transcription model adjusted on more than 2,500 hours of audio (in French) from the base model Wav2Vec2 XLSR 53 from the R&D laboratory of MetaAI.
11
 
12
+ This model was trained on the same datasets as the [French model 0.9](https://github.com/wasertech/commonvoice-fr/releases/tag/v0.9.0-fr-0.1) in order to compare the performance of the DeepSpeech2 architecture (DeepSpeech/STT+KenLM) and the CTC decoder of Wav2Vec2.
13
 
14
  This is a distribution for research and evaluation purposes only under the Mozilla Public License version 2.0.
15
 
 
55
 
56
  These advances can be seen in the measurements of the error rate per word (WER) and per character (CER) but also when using the model.
57
 
58
+ The next step would be to add, update and augment the acoustic model data with one or more background noise layers from various noise source environments (a fan, a car, a crowd of people, etc - c.f. [Model 0.9](https://github.com/wasertech/commonvoice-fr/releases/tag/v0.9.0-fr-0.1) - ) but also by applying more essential transformations such as echo and other various distortions of the input. We could take advantage of advances in transformers to identify the noise and train a model to remove it and keep only the speech. We could then use the output of such a model as input to this one. This would greatly improve transcription accuracy under extreme noise conditions.
59
 
60
  To improve the performance of the model on your data, it is recommended to adjust it on them.
61
 
 
65
 
66
  Modèle Français de transcription vocale ajusté sur plus de 2'500 heures d'audio (en français) à partir du modèle de base Wav2Vec2 XLSR 53 du laboratoire R&D de MetaAI.
67
 
68
+ Ce modèle à été entraîné sur les mêmes sets de données que le [modèle français 0.9](https://github.com/wasertech/commonvoice-fr/releases/tag/v0.9.0-fr-0.1) afin de comparer les performances de l'architecture DeepSpeech2 (DeepSpeech/STT+KenLM) et du decoder CTC de Wav2Vec2.
69
 
70
  Il s'agit d'une distribution uniquement déstinée à des fins de recherches et d'évaluation regie par la licence publique de Mozilla dans sa version 2.0.
71
 
 
111
 
112
  Ces avancées se perçoivent dans les mesures du taux d'erreur par mot (WER) et par caractère (CER) mais également lors de l'utilisation du modèle.
113
 
114
+ La prochaine étape consiterait à ajouter, mettre à jour et augmenter les données du modèle acoustique avec une ou plusieurs couches de bruit de fond provenant de divers environnements source de bruit (un ventilateur, une voiture, une foule de gens, etc - c.f. [Modèle 0.9](https://github.com/wasertech/commonvoice-fr/releases/tag/v0.9.0-fr-0.1) - ) mais également en applicant des transformations plus essentielles tel que l'echo et autres diverses diformations de l'entrée. Nous pourrions profiter des avancées dans le domaine des transformers pour identifier le bruit et entraîner un modèle pour le supprimer et ne garder que le discours. Nous pourrions alors utiliser la sortie d'un tel modèle en entrée de celui-ci. Cela améliorerait grandement la precision de la transcription dans des conditions de bruit extrême.
115
 
116
  Pour améliorer les performence du modèle sur vos données il est préconisé de l'ajuster sur celles-ci.
117