課程概述 |
自然語言處理的應用,除了資訊檢索、機器翻譯、智慧型介面、寫作輔助、語音辨識與合成、OCR等外,最近因為網際網路對於智慧型文本處理的需求日益迫切,自然語言處理理論與技術更加重要。以網際網路中最主要的資訊傳播媒體-全球資訊網為例,由網頁的生成、檢索、擷取、多媒體性、及多語言性等方面,自然語言處理都扮演相當重要的角色。修習本課程將可學到自然語言處理的相關理論與技術,對未來從事研究或實務工作等方面都有幫助。
本課程分成三部份:
(1) 規則式的方法
內容包括Finite State Transition Network、Recursive
Transition Network、Augmented Transition Network、
Parsing Algorithms、Chart Data Structure、Unification
Approach等。
(2) 統計式的方法
內容包括Statistical Models and the Entropy of
English、Hidden Markov Models、Algorithms for Hidden
Markov Models、Part-of-Speech Tagging、Probabilistic
Context-Free Grammars、The Mathematics of PCFGs、Partial
Parsing、Learning Probabilistic
Grammars、Data-Oriented Language Processing、Syntactic
Disambiguation、Word Classes and Meaning等。
(3) 全球資訊網上的應用
Web document generation、retrieval、extraction等。
參考書目
(1) Eugene Charniak, Statistical Language Learning, MIT,
1993.
(2) G. Gazdar and C. Mellish, Natural Language Processing:
An Introduction to Computational Linguistics,
Addison-Wesley, 1989.
(3) Steve Young and Gerrit Bloothooft (Editors),
CORPUS-BASED METHODS IN LANGUAGE AND SPEECH PROCESSING,
Morgan Kaufmann, 1997.
(4) Kavi Mahesh (Editor), Natural Language Processing for
the World Wide Web, American Association for Artificial Intelligence, 1997.
(5) Doug Oard (Editor), Cross-Language Text and Speech
Retrieval, American Association for Artificial
Intelligence, 1997.
|