Nix, Johannes (2006) Localization and separation of concurrent talkers based on principles of auditory scene analysis and multi-dimensional statistical methods. PhD, Universität Oldenburg.

- Accepted Version

Volltext (4Mb)


This work focuses on 'statistical cocktail party processing': localization, tracking, and enhancement of voices in concurrent speech or in high levels of nonstationary noise. Key strategies are to link binaural and spectro-temporal information, to combine cues across frequency and time by a probabilistic approach, and to treat speech as a multidimensional stochastic signal, using a priori knowledge about it. To implement these, Bayesian estimation, sequential Monte Carlo methods, and statistical evaluation of speech databases are used. Three on-line algorithms are developed and tested, which run partly in real-time. They allow for a robust, efficient and exact sound localization even at low signal-to-noise ratios (SNRs), and successful tracking and separation of voices with convergence times between 50 and 200 ms. The multidimensional statistical approach allows to analyze acoustical scenes at low SNR, showing that the described strategies might help to interpret auditory processing.

["eprint_fieldname_abstract_plus" not defined]

Diese Arbeit behandelt statistisches 'Cocktail Party Processing': Lokalisation, Verfolgen und Hervorhebung von Stimmen in Sprachlôrm oder nichtstationôren Störgeräuschen mit hohem Pegel. Als Strategien dienten die Verbindung binauraler und spektro-temporaler Information, die Kombination von Merkmalen über Frequenz und Zeit anhand eines probabilistischen Ansatzes, und die Behandlung von Sprache als mehrdimensionales statistisches Signal. Hierzu wurden Bayes'sche Schätzverfahren, Sequenzielle Monte Carlo Methoden, und die statistische Auswertung von Sprachdatenbanken verwendet. Drei, teilweise in Echtzeit ausführbare, on-line Algorithmen wurden entwickelt. Sie erlauben eine robuste, effiziente und exakte Lokalisation von Schallquellen selbst bei niedrigen Signal-Rausch-Abständen (SNR) und Verfolgung und Trennung von Stimmen mit Konvergenzzeiten zwischen 50 und 200 ms. Der mehrdimensionale statistische Ansatz ermöglicht es, akustische Szenen bei niedrigen SNR zu analysieren.

Item Type: Thesis (PhD)
Uncontrolled Keywords: [Keine Schlagwörter von Autor/in vergeben.]
Controlled Keywords: Sprachlärm, Störgeräusch
Subjects: Science and mathematics > Physics
Divisions: Faculty of Mathematics and Science
Date Deposited: 17 Jan 2013 14:13
Last Modified: 09 Dec 2013 13:01
URN: urn:nbn:de:gbv:715-oops-1194

Actions (login required)

View Item View Item

Document Downloads

More statistics for this item...