Jürgens, Tim (2010) A microscopic model of speech recognition for listeners with normal and impaired hearing. PhD, Universität Oldenburg.
|
Volltext (5Mb) |
Abstract
Diese Dissertation stellt ein mikroskopisches Modell der menschlichen Spracherkennung (HSR) vor; mikroskopisch bedeutet erstens, dass die Erkennung einzelner Phoneme (und nicht die Erkennung ganzer Sätze) modelliert wird. Zweitens wird die genaue spektro-temporale Struktur von Sprache mit einem auditorischen Modell verarbeitet. Gängige Modelle der HSR verwenden hingegen die spektrale Struktur allein. Das Modell ist dazu in der Lage die Phonemerkennung von Normalhörenden (NH) im Rauschen und wichtige Aspekte der Konsonanterkennung in Ruhe vorherzusagen. Weiterhin wird das Modell zur Vorhersage von Satzverständlichkeiten erweitert. Diese Erweiterung sagt die Spracherkennung von NH und SH mit der gleichen Genauigkeit vorher wie ein Standard-Sprachverständlichkeitsmodell. Die überschwellige Verarbeitung von NH und SH wird mit Hilfe psychoakustischer Messmethoden (Nachverdeckungsexperiment und kategoriale Lautheitsskalierung) erfasst. Diese überschwellige Verarbeitung wird dann im Modell berücksichtigt. Es zeigt sich, dass eine Berücksichtigung der überschwelligen Verarbeitung die Vorhersagegenauigkeit verbessert.
["eprint_fieldname_abstract_plus" not defined]
This dissertation presents a microscopic model of human speech recognition (HSR), microscopic in a sense that first, the recognition of single phonemes rather than the recognition of whole sentences is modeled. Second, the particular spectro-temporal structure of speech is processed by an auditory model. This contrasts with other models of HSR, which usually use the spectral structure only. The model is capable of predicting phoneme recognition in normal-hearing (NH) listeners in noise along with important aspects of consonant recognition in quiet. Furthermore, this model is extended for the prediction of sentence recognition. The extension is capable of predicting speech recognition of NH and hearing-impaired (HI) listeners as accurately as a standard speech intelligibility model. Parameters reflecting the supra-threshold auditory processing are assessed in NH and HI listeners using psychoacoustical techniques such as forward masking and categorical loudness scaling. These supra-threshold auditory processing deficits are included in the model and the results show that implementing supra-threshold processing improves prediction accuracy.
Item Type: | Thesis (PhD) |
---|---|
Uncontrolled Keywords: | human speech recognition , auditory model , hearing impairment , categorical loudness scaling , automatic speech recognition |
Controlled Keywords: | Sprachwahrnehmung , Auditorisches System , Modell , Hörschädigung , Automatische Spracherkennung |
Subjects: | Science and mathematics > Physics |
Date Deposited: | 17 Jan 2013 14:26 |
Last Modified: | 08 Jul 2013 13:04 |
URI: | https://oops.uni-oldenburg.de/id/eprint/1094 |
URN: | urn:nbn:de:gbv:715-oops-11688 |
DOI: | |
Nutzungslizenz: |
Actions (login required)
View Item |