001024775
100 $a y50
101 $afre
2001 $aContribution des réseaux de neurones bayésiens à la reconnaissance de la parole $bressource électronique
210 $aUniversité Mohamed Boudiaf des Sciences et de la Technologie - Mohamed Boudiaf d'Oran : Département d'Informatique$cUniversité Mohamed Boudiaf des Sciences et de la Technologie - Mohamed Boudiaf d'Oran
328 1$bDoctorat$cInformatique$eDépartement d'Informatique , Université Mohamed Boudiaf des Sciences et de la Technologie - Mohamed Boudiaf d'Oran
330 $aLes réseaux de neurones profonds se sont imposés -pendant des années- comme des outils
performants et efficaces de reconnaissance de la parole, et cela grâce à leur capacité à
apprendre les relations complexes entre les signaux acoustiques et les unités phonétiques .
Malgré leurs bonnes performances, leurs natures déterministes, ne tenaient pas compte de
l’incertitude présente dans les données audio, notamment lorsque les enregistrements sont
bruités ou ambigus.
Dans ce contexte, notre travail s’intéresse à l’utilisation des Réseaux de Neurones Bayésiens
comme alternative capable de mieux gérer cette incertitude. L’approche proposée s’appuie
aussi sur la rétropropagation bayésienne (Bayes by Backprop), qui permet d’apprendre une
distribution probabiliste des poids du réseau, tout en modélisant l’incertitude des prédictions
et en améliorant la régularisation de l’apprentissage. Les modèles obtenus deviennent ainsi
plus robustes et plus adaptés aux applications réelles, en particulier dans des environnements
caractérisés par un niveau élevé de bruit et une forte variabilité acoustique.
Nos expériences ont été réalisées sur les bases de données TIMIT et Noisy TIMIT, cette
dernière intégrant différents types de bruits stationnaires et non stationnaires, à plusieurs
rapports signal/bruit (SNR) .
Les résultats obtenus ont montré une supériorité du modèle bayésien en conditions bruitées
par rapport aux architectures déterministes ou classiques (DNN, CNN, TDNN). Alors que sur
TIMIT propre, les performances du BNN sont comparables à celles d’un réseau classique
(PER ≈ 18–20 %), le modèle bayésien conserve une meilleure stabilité sur Noisy TIMIT,
limitant ainsi la dégradation du PER de 15 à 20 % selon le SNR, tout en fournissant une
mesure de confiance fiable sur les segments ambigus. L’analyse phonétique détaillée montre
également que les voyelles et nasales restent les plus robustes, tandis que les fricatives et
occlusives montrent une dégradation significative sous bruit industriel.
Cette étude, à montré que l’intégration du cadre bayésien dans l’apprentissage profond des
RN améliore non seulement la robustesse des modèles de reconnaissance phonétique, mais
aussi leur capacité à fournir des prédictions interprétables et calibrées même dans des
environnements non stable ou bruités
610 $aReconnaissance automatique de la parole (RAP),Classification phonétique, Réseaux de
neurones profonds (DNN),Réseaux de neurones bayésiens (BNN),Quantification de
l’incertitude, rétropropagation bayésienne, , Base de données TIMIT, Noisy TIMIT
700 $aOTMANI, linda
701 $aArray
801 0$aDZ$bCERIST PNST
901$ac