Doctoral State Exam
Cs: Vybrané okruhy pro doktorskou zkoušku
1. Basic Methods in Natural Language Processing
Cs: Základní přístupy k počítačovému zpracování přirozeného jazyka
- Types of task in NLP, mathematical and linguistic basics. (Typy úloh v počítačovém zpracování přirozeného jazyka, matematické a lingvistické základy.)
- Linguistic data collection, corpora, annotations. (Lingvistická data, korpusy, anotace.) NPFL092 Technology for NLP Prague Dependency Treebank
- Design and evaluation of linguistic experiments, evaluation metrics. (Návrh a vyhodnocení lingvistických experimentů, evaluační metriky.)
- Basics of graph theory. (Základy teorie grafů.) Invitation to Discrete Mathematics, Nesetril, Matousek
- Layered description of language (Systém rovin popisu jazyka.)
- General linguistics, language topology. (Obecná lingvistika, jazyková typologie.)
- Morphology and syntax. (Morfologie a syntax přirozeného jazyka.)
- Automata and grammars, ?constituency/generative? grammar, Chomsky hierarchy. (Automaty a gramatiky, složková syntax, Chomského hierarchie.) Introduction to formal linguistics
- Dependency syntax, properties of dependency syntax trees. (Závislostní syntax, vlastnosti závislostních stromů.) Introduction to formal linguistics Prague Dependency Treebank
- Language modeling. (Jazykové modelování.)
General links
- CS Offline Úvod do teoretické a počítačové lingvistiky. I. sv. Teoretická lingvistika. Panevová Jarmila - Sgall Petr - Hajičová Eva
- Valency in the Prague Dependency Treebank - Lopatková
- From Treebanking to Machine Translation
- CS: Úvod do teoretické sémantiky,Skripta Peregrin
- Focus topic articulation by Jaroslav Peregrin (E. Hajicova)
- wiki
3. Statistical Methods and Machine Learning in NLP
CS: Statistické metody a strojové učení v počítačové lingvistice
- Probabilistic modelling of language (Pravděpodobnostní modelování jazyka.)
- Classification and regression (Metody řízeného učení pro klasifikaci a regresi.)
- Linear and non-linear methods (Lineární a nelineární metody.)
- SVM and kernel functions (Support Vector Machines a kernelové funkce.)
- Logistic regression (Logistická regrese.)
- Decision trees (Rozhodovací stromy.)
- Unsupervised learning (Metody neřízeného učení.)
- Noisy channel and language models (Jazykové modely a modely kanálu.)
- LM smoothing (Vyhlazování modelů.)
- HMM (Skryté Markovovy modely (algoritmy Baum–Welch, Forward–Backward, Viterbi).)
- Algorithms for statistical POS tagging (Algoritmy pro statistický tagging.)
- Algorithms for constituency and dependency parsing (Algoritmy pro složkový a závislostní statistický parsing.)
- SMT & NN (Statistický strojový překlad. Základy neuronových sítí pro využití v počítačovém zpracování jazyka.)
- Significance testing (Testy signifikance.)
General links
5. Application of methods for spoken language processing
CS: Aplikace metod pro zpracování mluvené řeči
- Methods of Speech Signal Processing (Metody zpracování řečového signálu.)
- HMMs for modelling acoustics of phoneme (HMM modelování akustiky fonému.)
- Baum-Welch & Viterbi algorithm implementation (Implementace Baum-Welch a Viterbi algoritmu pro rozpoznáváni řeči.)
- Offline CS Psutka
- Automatic speech recognition using Kaldi
- Adaptation techniques (Adaptační techniky.)
- Summarization of spoken utterances (Sumarizace řečových nahrávek.)
- Offline CS Psutka
- Topic search in Spoken Corpora (Vyhledávání témat a slov v řečových korpusech.)
- Offline CS Psutka
- Speaker diarization (Rozpoznávání mluvčího.)
- Natural Language Generation (Generování promluvy.) Sequence-to-Sequence Generation for Spoken Dialogue via Deep Syntax Trees and Strings
- Methods for Text-to-Speech (Metody syntézy řeči.)
- Text preprocessing for TTS - prosody (Zpracování textu pro syntézu řeči, prozodie.)
- Basic components of a dialogue system (Základní komponenty dialogového systému.)
- Spoken Language Understanding (Porozumění mluvené řeči.)
- Dialogue State and Dialogue Management (Stav dialogu, řízení dialogu.)
- Dialogue System Evaluation (Hodnocení kvality dialogových systémů.)
PS: As usual, suggestions and improvements are welcome by pull request.