Contribution des réseaux de neurones bayésiens à la reconnaissance de la parole

OTMANI, Linda

Recherche en cours

Etablissement	Université Mohamed Boudiaf des Sciences et de la Technologie - Mohamed Boudiaf d'Oran
Affiliation	Département d'Informatique
Auteur	OTMANI, Linda
Directeur de thèse	YEDJOUR Dounia (Professeur)
Filière	Informatique
Diplôme	Doctorat
Titre	Contribution des réseaux de neurones bayésiens à la reconnaissance de la parole
Mots clés	Reconnaissance automatique de la parole (RAP),Classification phonétique, Réseaux de neurones profonds (DNN),Réseaux de neurones bayésiens (BNN),Quantification de l’incertitude, rétropropagation bayésienne, , Base de données TIMIT, Noisy TIMIT
Résumé	Les réseaux de neurones profonds se sont imposés -pendant des années- comme des outils performants et efficaces de reconnaissance de la parole, et cela grâce à leur capacité à apprendre les relations complexes entre les signaux acoustiques et les unités phonétiques . Malgré leurs bonnes performances, leurs natures déterministes, ne tenaient pas compte de l’incertitude présente dans les données audio, notamment lorsque les enregistrements sont bruités ou ambigus. Dans ce contexte, notre travail s’intéresse à l’utilisation des Réseaux de Neurones Bayésiens comme alternative capable de mieux gérer cette incertitude. L’approche proposée s’appuie aussi sur la rétropropagation bayésienne (Bayes by Backprop), qui permet d’apprendre une distribution probabiliste des poids du réseau, tout en modélisant l’incertitude des prédictions et en améliorant la régularisation de l’apprentissage. Les modèles obtenus deviennent ainsi plus robustes et plus adaptés aux applications réelles, en particulier dans des environnements caractérisés par un niveau élevé de bruit et une forte variabilité acoustique. Nos expériences ont été réalisées sur les bases de données TIMIT et Noisy TIMIT, cette dernière intégrant différents types de bruits stationnaires et non stationnaires, à plusieurs rapports signal/bruit (SNR) . Les résultats obtenus ont montré une supériorité du modèle bayésien en conditions bruitées par rapport aux architectures déterministes ou classiques (DNN, CNN, TDNN). Alors que sur TIMIT propre, les performances du BNN sont comparables à celles d’un réseau classique (PER ≈ 18–20 %), le modèle bayésien conserve une meilleure stabilité sur Noisy TIMIT, limitant ainsi la dégradation du PER de 15 à 20 % selon le SNR, tout en fournissant une mesure de confiance fiable sur les segments ambigus. L’analyse phonétique détaillée montre également que les voyelles et nasales restent les plus robustes, tandis que les fricatives et occlusives montrent une dégradation significative sous bruit industriel. Cette étude, à montré que l’intégration du cadre bayésien dans l’apprentissage profond des RN améliore non seulement la robustesse des modèles de reconnaissance phonétique, mais aussi leur capacité à fournir des prédictions interprétables et calibrées même dans des environnements non stable ou bruités
Réponse CS	validé 27/10/2025
Statut	Validé

format unimarc