Meyer, Bernd T. (2009) Human and automatic speech recognition in the presence of speech-intrinsic variations. PhD, Universität Oldenburg.

[img]
Preview


Volltext (5Mb)

Abstract

Ziel der vorliegenden Dissertation ist die Analyse und Verbesserung automatischer Spracherkennung (ASR). Da das menschliche auditorische System heutigen ASR-System weit überlegen ist, wurde zunächst die Erkennungsleistung von Mensch und Maschine verglichen. Aus den spezifischen Unterschieden wurden Rückschlüsse auf Signalverarbeitungsmechanismen gezogen, die zu einer Verbesserung von ASR führen. Beim Vergleich wurde insbesondere der Einfluss intrinsischer Variabilität (Änderungen der Sprachrate, des Sprachaufwands und -stils, sowie Dialekt und Akzent) evaluiert. Die Ergebnisse belegen, dass die Verarbeitung zeitlicher Merkmale in ASR Optimierungspotential birgt. Daher wurden spektro-temporale Merkmale für ASR eingesetzt, mit denen bei verändertem Sprachaufwand und variierender Sprechweise eine Verbesserung gegenüber Standardmerkmalen erzielt wurde; dies belegt die Nützlichkeit spektro-temporaler und temporaler Information für automatische Erkenner.

["eprint_fieldname_abstract_plus" not defined]

The aim of this thesis is the analysis and improvement of automatic speech recognition (ASR). Since the human auditory system outperforms current ASR systems in almost all conditions, the recognition performance of man and machine was compared in a first step. Based on the differences, the signal processing mechanisms were identified that are suitable to increase the robustness of ASR. The comparison focused on the influence of intrinsic variations of speech, i.e., changes in speaking rate, effort and style, as well as dialect and accent. The results show that the processing of temporal cues in ASR bears room for improvement. Therefore, spectro-temporal features were employed for ASR, which resulted in an increase of recognition performance for varying speaking effort and speaking style compared to standard features. This documents the usefulness of spectro-temporal and temporal information for automatic recognizers.

Item Type: Thesis (PhD)
Uncontrolled Keywords: Automatic speech recognition, speech perception , spectro-temporal features , man-machine-comparison , speech-intrinsic variations
Controlled Keywords: Automatische Spracherkennung , Sprachverarbeitung , Signalverarbeitung , Mensch , Maschine
Subjects: Science and mathematics > Physics
Date Deposited: 17 Jan 2013 14:24
Last Modified: 08 Jul 2013 13:04
URI: https://oops.uni-oldenburg.de/id/eprint/919
URN: urn:nbn:de:gbv:715-oops-9874
DOI:
Nutzungslizenz:

Actions (login required)

View Item View Item

Document Downloads

More statistics for this item...