課程名稱 |
文本探勘方法與應用 Text Mining Approaches and Applications |
開課學期 |
111-2 |
授課對象 |
文學院 圖書資訊學研究所 |
授課教師 |
林頌堅 |
課號 |
LIS5100 |
課程識別碼 |
126 U1630 |
班次 |
|
學分 |
3.0 |
全/半年 |
半年 |
必/選修 |
選修 |
上課時間 |
星期五2,3,4(9:10~12:10) |
上課地點 |
圖資資訊室 |
備註 |
U選課程,學士班與碩士班學生均可修習。 總人數上限:30人 |
|
|
課程簡介影片 |
|
核心能力關聯 |
核心能力與課程規劃關聯圖 |
課程大綱
|
為確保您我的權利,請尊重智慧財產權及不得非法影印
|
課程概述 |
本課程首先簡介文本探勘的應用與方法,建立同學對於文本探勘的基本認識與適用範圍。接著介紹文本探勘研究與應用常用的Python程式語言和相關套件,提供同學撰寫程式應用文本探勘技術的基礎。隨後,將以PTT BBS或Dcard等網路上的文本資料為例,說明文本的採集方法。最後,說明與練習文本探勘所應用的各種自然語言處理方法與技術,包括前處理以及探索性分析,斷詞、詞性標示和搭配詞偵測、文本資料表示與其應用、以及主題建模。 |
課程目標 |
1. 同學能夠對基本的文本探勘方法、技術與應用,有足夠的認識。
2. 同學能夠應用電腦程式,蒐集大量文本資料。
3. 同學能夠了解如何運用自然語言處理技術,進行文本資料的清理、表示、分類、聚群等處理,解決當前的問題。 |
課程要求 |
課程中依據文本探勘的適用任務以及處理程序安排四個Short-Term Projects,同學需按時完成每次Short-Term Project。 |
預期每週課後學習時數 |
4~6小時 |
Office Hours |
每週五 12:00~14:50 |
指定閱讀 |
|
參考書目 |
Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). A brief survey of text mining: Classification, clustering and extraction techniques. arXiv preprint arXiv:1707.02919.
Lauriola, I., Lavelli, A., & Aiolli, F. (2022). An introduction to deep learning in natural language processing: Models, techniques, and tools. Neurocomputing, 470, 443-456.
Quinn, K. M., Monroe, B. L., Colaresi, M., Crespin, M. H., & Radev, D. R. (2010) How to analyze political attention
with minimal assumptions and cost. American Journal of Political Science, 54(1), 209-228. doi: 10.1111/j.1540-5907.2009.00427.x
Ignatow, G., & Mihalcea, R. (2017). An Introduction to Text Mining: Research Design, Data collection, and Analysis. Sage Publications.
Vajjala, S., Majumder, B., Gupta, A., & Surana, H. (2020). Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems. O'Reilly Media.
|
評量方式 (僅供參考) |
No. |
項目 |
百分比 |
說明 |
1. |
1 |
80% |
Short-Term Projects (20% for Each Project) |
2. |
2 |
20% |
In-class Response |
|
針對學生困難提供學生調整方式 |
上課形式 |
提供學生彈性出席課程方式 |
作業繳交方式 |
延長作業繳交期限, 學生與授課老師協議改以其他形式呈現 |
考試形式 |
|
其他 |
由師生雙方議定 |
|
週次 |
日期 |
單元主題 |
第1週 |
2/24 |
Course Introduction (Approaches and Applications of Text Mining) |
第2週 |
3/3 |
Python Programming (I): Data Type |
第3週 |
3/10 |
Python Programming (II): Pandas DataFrame |
第4週 |
3/17 |
Python Programming (III): String and Regular Expression |
第5週 |
3/24 |
Web Scraper |
第6週 |
3/31 |
Preprocessing and Exploratory Data Analysis |
第7週 |
4/7 |
Short-term Project 1 |
第8週 |
4/14 |
Word Segmentation and Part-of-Speech Tagging |
第9週 |
4/21 |
Collocation Extraction |
第10週 |
4/28 |
Short-term Project 2 |
第11週 |
5/5 |
Text Representation (I): Word Embedding Model |
第12週 |
5/12 |
Text Representation (II): Transformers |
第13週 |
5/19 |
Short-term Project 3 |
第14週 |
5/26 |
Topic Modeling (I) |
第15週 |
6/2 |
Topic Modeling (II) |
第16週 |
6/9 |
Short-term Project 4 |
|