Bechtold, Bastian (2021) Pitch of Voiced Speech in the Short-Time Fourier Transform: Algorithms, Ground Truths, and Evaluation Methods. PhD, Universität Oldenburg.
|
Volltext (10Mb) |
Abstract
This dissertation investigates algorithms for estimating pitch in the human voice. Many such algorithms exist, and claim to be accurate even in high levels of noise. Pitch, however, is a human percept that strictly speaking only exists in the human brain, and is not directly available for testing algorithms. Evaluating algorithm accuracy is therefore difficult, and highly dependent on the choice of truth used for comparison. This dissertation introduces a new pitch estimation algorithm for the human voice that is accurate and robust to noise, proposes a new pitch ground truth that is a better fit for the task than previous truths, and evaluates existing pitch estimation algorithms in a comparison study of unprecedented scope. The results of this comparison reveal a surprising amount of hidden bias in existing speech corpora, as well as evaluation methods. Thus, the choice of algorithm should be highly dependent on the expected signals, with no one clear best choice for all applications.
["eprint_fieldname_title_plus" not defined]
Tonhöhe stimmhafter Sprache in der Kurzzeit-Fourier-Transformation: Algorithmen, Wahrheiten, und Auswertungsmethoden
["eprint_fieldname_abstract_plus" not defined]
Diese Dissertation untersucht Algorithmen zum Schätzen der Tonhöhe menschlicher Sprache. Es existieren viele solcher Algorithmen, die auch in Rauschen präzise arbeiten. Die Tonhöhe ist allerdings eine menschliche Empfindung, und steht Algorithmen nicht zur Verfügung. Die Bewertung ihrer Genauigkeit ist daher schwer, und immer abhängig von der Verwendeten Wahrheit. Diese Dissertation stellt einen neuen Tonhöhen-Schätzungs-Algorithmus vor, der besonders robust gegen Rauschen ist, zeigt eine neue Tonhöhen-Wahrheit die besser passt als bestehende Wahrheiten, und endet mit einer Vergleichsstudie bestehender Algorithmen von noch nie dagewesenem Umfang. Diese Studie zeigt überraschend große versteckte Biase in bestehenden Sprach-Datenbanken und Auswertungsmethoden auf. Es gibt daher keinen besten Algorithmus, sondern die Wahl des Algorithmusses sollte unbedingt spezifisch auf die zu erwartenden Signale abgestimmt sein.
Item Type: | Thesis (PhD) |
---|---|
Uncontrolled Keywords: | Signalverarbeitung, Tonhöhe, Sprechen |
Subjects: | Science and mathematics > Physics |
Divisions: | Faculty of Medicine and Health Sciences > Department of Medical Physics and Acoustics |
Date Deposited: | 15 Apr 2021 05:37 |
Last Modified: | 15 Apr 2021 05:37 |
URI: | https://oops.uni-oldenburg.de/id/eprint/5049 |
URN: | urn:nbn:de:gbv:715-oops-51308 |
DOI: | |
Nutzungslizenz: |
Actions (login required)
View Item |