課程名稱 |
文本探勘方法與應用 Text Mining Approaches and Applications |
開課學期 |
110-2 |
授課對象 |
文學院 圖書資訊學系 |
授課教師 |
林頌堅 |
課號 |
LIS5100 |
課程識別碼 |
126 U1630 |
班次 |
|
學分 |
3.0 |
全/半年 |
半年 |
必/選修 |
選修 |
上課時間 |
星期五2,3,4(9:10~12:10) |
上課地點 |
圖資資訊室 |
備註 |
U選課程,學士班與碩士班學生均可修習。 總人數上限:30人 |
|
|
課程簡介影片 |
|
核心能力關聯 |
核心能力與課程規劃關聯圖 |
課程大綱
|
為確保您我的權利,請尊重智慧財產權及不得非法影印
|
課程概述 |
本課程首先簡介文本探勘的應用、方法、適用任務以及處理程序,接著介紹文本探勘研究與應用常用的Python程式語言和相關套件。隨後,將以臺大PTT BBS上的網路文本資料為例,說明文本的採集方法。最後,說明與練習文本探勘所應用的各種自然語言處理方法與技術,包括前處理以及探索性分析,斷詞、詞性標示、命名實體辨識和搭配詞偵測,文本資料表示,以及文本分類和主題模型。 |
課程目標 |
1. 同學能夠對基本的文本探勘方法、技術與應用,有足夠的認識。
2. 同學能夠應用電腦程式,蒐集大量文本資料。
3. 同學能夠了解如何運用自然語言處理技術,進行文本資料的清理、表示、分類、聚群等處理,解決當前的問題。 |
課程要求 |
課程中依據文本探勘的適用任務以及處理程序安排四個Short-Term Projects,同學需按時完成每次Short-Term Project。 |
預期每週課後學習時數 |
|
Office Hours |
|
指定閱讀 |
|
參考書目 |
Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). A brief survey of text mining: Classification, clustering and extraction techniques. arXiv preprint arXiv:1707.02919.
Ignatow, G., & Mihalcea, R. (2017). An Introduction to Text Mining: Research Design, Data collection, and Analysis. Sage Publications.
Quinn, K. M., Monroe, B. L., Colaresi, M., Crespin, M. H., & Radev, D. R. (2010) How to analyze political attention with minimal assumptions and cost. American Journal of Political Science, 54(1), 209-228. doi: 10.1111/j.1540-5907.2009.00427.x
Vajjala, S., Majumder, B., Gupta, A., & Surana, H. (2020). Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems. O'Reilly Media. |
評量方式 (僅供參考) |
|
週次 |
日期 |
單元主題 |
第1週 |
2/18 |
Course Introduction |
第2週 |
2/25 |
Applications of Text Mining |
第3週 |
3/4 |
Introduction to Python Programming (I): Data Type |
第4週 |
3/11 |
Introduction to Python Programming (II): Pandas DataFrame |
第5週 |
3/18 |
Introduction to Python Programming (III): String and Regular Expression |
第6週 |
3/25 |
Text Data Acquisition—PPT BBS |
第7週 |
4/1 |
Preprocessing and Exploratory Data Analysis |
第8週 |
4/8 |
Short-term Project 1 |
第9週 |
4/15 |
Word Segmentation and Part-of-Speech Tagging |
第10週 |
4/22 |
Collocation Extraction |
第11週 |
4/29 |
Short-term Project 2 |
第12週 |
5/6 |
Name Entity Recognition |
第13週 |
5/13 |
Text Representation-- Word Embedding Model |
第14週 |
5/20 |
Short-term Project 3 |
第15週 |
5/27 |
Topic Modeling (I) |
第16週 |
6/3 |
Topic Modeling (II) |
第17週 |
6/10 |
Short-term Project 4 |
|