vhb-Kursprogramm
Navigationsbereich
Kursdetails
- Anbieterhochschule
- Uni Erlangen-Nürnberg (FAU)
- Kurs-ID
- LV_421_1737_1_82_1
- Fächergruppe
- Informatik
- Teilgebiet
- kein Teilgebiet zugewiesen
- Titel (englisch)
- Fundamentals of Speech Processing
- Bemerkungen
- -
- Kursanmeldung
- 01.10.2025 00:00 Uhr bis 06.02.2026 23:59 Uhr
- Kursabmeldung
- 01.10.2025 00:00 Uhr bis 06.02.2026 23:59 Uhr
- Kursbearbeitung / Kurslaufzeit
- 13.10.2025 bis 31.03.2026
- Bereitstellung der Kursinhalte
- -
- Freie Plätze
- unbegrenzt
- Anbieter
Prof. Dr. Andreas Maier
- Umfang
- Details zur Anrechnung in den FAQs
- SWS
- 4
- ECTS
- 5
- Sprache
- Englisch
- Kurs ist konzipiert für
FAU
Informatik M.Sc., Medizintechnik M.Sc., Aritficial Intelligence M.Sc., Data science M.Sc., Information and Communication Technology M.Sc.TH Nürnberg
Informatik M.Sc., Medieninformatik M.Sc.OTH Amberg-Weiden
Künstliche Intelligenz M.Sc., AI für Industrial Applications M.Sc.- Online Prüfungsanmeldung
- Nein
Fundamentals of Speech Processing
zum Kurs anmelden Anmeldung: Anmeldefrist läuft
Sie müssen Sich einloggen, bevor Sie sich zu diesem Kurs anmelden können
Inhalt
Abstract:
Voice and speech are a cornerstone of modern human computer interaction. The enabling technology, Automatic Speech Recognition (ASR), has furthermore generated significant interest due to its transformative potential in both academia and a wide range of industries such as healthcare, customer service, and education, among others. This course focuses on the fundamentals of speech processing which includes:
- Introduction to ASR
- Introduction to pattern recognition with applications to speech processing
- Introduction to Phonetics
- Speech Production
- Source-Filter-model as applied to human speech
- Speech Perception
- Symbolic Description of Speech
- Phonologic Categorization of Sounds
- Prosody
- Features for speech processing including
- Spectral, Cepstral and Formant analysis
- Perception-related Approaches: Mel Filter banks for Human Speech, Perceptual Linear Prediction
- Linear Predictive Coding
- Wavelet Transformations
- Dynamic time warping for isolated word recognition
- Machine learning for speech processing
- K-means clustering
- Vector quantization
- Gaussian mixture models (GMM)
- Expectation Maximization
- Support Vector Machines (SVM)
- Hidden Markov Models
- Neural networks
- Modeling for speech
- Factor Analysis and i-Vectors
- Universal background models
- Visualization of high-dimensional data
- Phonetic modeling with HMMs
- Language modeling with n-grams
- Combined modeling using weighted finite state transducers (WFST)
- Neural networks for acoustic and language modeling
The accompanying assignments are based on jupyter notebooks and will provide students the opportunity to generate, visualize, and experiment the above methods and approaches.
Gliederung:
1. Motivation and History
2. Pattern Recognition and ASR
3. Phonetics and Speech Production
4. Speech perception and Categorization
5. Prosodic Information in Speech
6. Analysis of Formants and Spectral Features
7. Feature Extraction for Speech Processing
8. Dynamic Timewarping Warping for isolated ord recognition
9. Gaussian Mixture Models and Vector Quantization
10. GMMs for Speaker Verification
11. Hidden Markov Models
12. Acoustic and Language Modeling
13. Weighted Finite State Transducers
14. Neural networks in automatic speech recognition
15. Risks of and ethical considerations for speech processing
Detaillierter Inhalt:
By the end of this course, students will be able to:
Understand and explain how pattern recognition systems are applied in Automatic Speech Recognition (ASR).
Describe how speech is produced and perceived in humans, and how these biological processes can be modeled mathematically.
Explain the articulation of speech, the role of phonemes, and their representation as basic units of sound.
Describe the concept of prosody and its importance in speech communication.
Understand, explain, and apply techniques such as spectral analysis, cepstral analysis, and formant analysis in speech signal processing.
Implement Dynamic Time Warping (DTW) to build an isolated-word speech recognizer.
Explain the structure and function of advanced models used in ASR, including Gaussian Mixture Models (GMMs), Hidden Markov Models (HMMs), and Weighted Finite State Transducers (WFSTs).
Describe the Expectation-Maximization (EM) algorithm and its application in optimizing GMMs.
Apply the K-Means clustering algorithm for vector quantization in speech-related tasks.
Compare and analyze techniques for handling high-dimensional data, and visualize complex speech patterns effectively.
Explain the decoding process in ASR, including how acoustic and linguistic models are used to search for the most likely word sequence.
Implement selected ASR models and algorithms using Python, and apply them to real speech data.
Critically analyze raw data, intermediate representations, and final recognition outputs within the ASR pipeline.
Deepen their understanding of mathematical methods used in ASR through independent study of relevant literature.
Discuss the societal and ethical implications of speech recognition technologies across domains such as healthcare, customer service, and education.
Lern-/Qualifikationsziele:
Lehrveranstaltungstyp:
Virtuelle Vorlesung
Interaktionsformen mit Betreuer/in:
Chat
Interaktionsformen mit Mitlernenden:
Chat
Kursdemo:
Nutzung
Kurs ist konzipiert für:
FAU
Informatik M.Sc., Medizintechnik M.Sc., Aritficial Intelligence M.Sc., Data science M.Sc., Information and Communication Technology M.Sc.
TH Nürnberg
Informatik M.Sc., Medieninformatik M.Sc.
OTH Amberg-Weiden
Künstliche Intelligenz M.Sc., AI für Industrial Applications M.Sc.
Formale Voraussetzungen:
-
Erforderliche Vorkenntnisse:
-
Hinweise zur Nutzung:
-
Kursumsetzung (verwendete Medien):
-
Erforderliche Technik:
-
Nutzungsentgelte:
für andere Personen als (reguläre) Studenten der vhb Trägerhochschulen nach Maßgabe der Benutzungs- und Entgeltordnung der vhb
Rechte hinsichtlich des Kursmaterials:
-
Verantwortlich
Anbieterhochschule:
Uni Erlangen-Nürnberg (FAU)
Anbieter:
Autoren:
Andreas Maier
Betreuer:
Prüfung
Art der Prüfung:
schriftlicher Leistungsnachweis (Klausur)
Bemerkung:
Registration via vhb website. Exam date announced in course. Cancelation until 3 days before exam. - 2. Course examination for all students (except FAU Campo registration)
Prüfer:
Prof. Dr. Andreas Maier
Prüfungsanmeldung erforderlich:
ja
Anmeldeverfahren:
Registration via vhb website. Exam date announced in course. Cancelation until 3 days before exam. - 2. Course examination for all students (except FAU Campo registration)
Prüfungsanmeldefrist:
17.11.2025 00:01 Uhr bis 07.12.2025 23:59 Uhr
Prüfungsabmeldefrist:
17.11.2025 00:01 Uhr bis 07.12.2025 23:59 Uhr
Kapazität:
–
Prüfungsdatum:
–
Prüfungszeitraum:
–
Prüfungsdauer:
–
Prüfungsort:
Erlangen
Zuständiges Prüfungsamt:
Examination office of the participating student
Zugelassene Hilfsmittel:
1 DIN-A4 handwritten sheet (front and back)
Formale Voraussetzungen für die Prüfungsteilnahme:
–
Inhaltliche Voraussetzungen für die Prüfungsteilnahme:
Course content
Zertifikat:
Nein
Anerkennung:
–
Kursverwaltung
Kursprogramm WS25/26
- Einstiegskurse
- Geistes- und Kulturwissenschaften
- Gesundheitswissenschaften
- Informatik
- Ingenieurwissenschaften
- Lehramt
- Berufs- und Wirtschaftspädagogik
- Deutsch als Zweitsprache
- Deutsche Literaturwissenschaft
- Didaktik interdisziplinär
- Erziehungswissenschaften
- Ethik
- Fachdidaktik Deutsch
- Fachdidaktik Englisch
- Fachdidaktik Geographie
- Fachdidaktik Mathematik
- Fachdidaktik Religion
- Fachdidaktik Sozialkunde
- Fachdidaktik Wirtschafts- und Arbeitslehre
- Fachwissenschaft Mathematik
- Geographie
- Geschichtswissenschaften
- Grundschulpädagogik und -didaktik
- Medienpädagogik
- Psychologie
- Schulpraktische Studien
- Medizin
- Allgemeinmedizin
- Anatomie
- Arbeits- und Umweltmedizin/ Hygiene
- Biochemie
- Chemie, Entwicklungsbiologie, Genetik, Immunologie, Mikrobiologie
- Chirurgie
- Epidemiologie
- Hals-, Nasen- und Ohrenheilkunde
- Infektiologie und Virologie
- Innere Medizin
- Kinderheilkunde
- Klinische Medizin
- Medizinische Forschung
- Mund-, Kiefer- und Gesichtschirurgie
- Notfallmedizin
- Onkologie
- Orthopädie und Unfallchirurgie
- Pathologie
- Pharmakologie und Toxikologie
- Physiologie und Physik
- Plastische Chirurgie
- Psychiatrie und Psychotherapie
- Rehabilitation
- Terminologie
- Tiermedizin
- Zahn-, Mund- und Kieferheilkunde
- Naturwissenschaften
- Rechtswissenschaft
- Schlüsselqualifikationen
- Soziale Arbeit
- Sozialwissenschaften
- Sprachen
- Wirtschaftsinformatik
- Wirtschaftswissenschaften
- Zusatzangebote