課程資訊
課程名稱
文本探勘方法與應用
Text Mining Approaches and Applications 
開課學期
111-2 
授課對象
文學院  圖書資訊學系  
授課教師
林頌堅 
課號
LIS5100 
課程識別碼
126 U1630 
班次
 
學分
3.0 
全/半年
半年 
必/選修
選修 
上課時間
星期五2,3,4(9:10~12:10) 
上課地點
圖資資訊室 
備註
U選課程,學士班與碩士班學生均可修習。
總人數上限:30人 
 
課程簡介影片
 
核心能力關聯
核心能力與課程規劃關聯圖
課程大綱
為確保您我的權利,請尊重智慧財產權及不得非法影印
課程概述

本課程首先簡介文本探勘的應用與方法,建立同學對於文本探勘的基本認識與適用範圍。接著介紹文本探勘研究與應用常用的Python程式語言和相關套件,提供同學撰寫程式應用文本探勘技術的基礎。隨後,將以PTT BBS或Dcard等網路上的文本資料為例,說明文本的採集方法。最後,說明與練習文本探勘所應用的各種自然語言處理方法與技術,包括前處理以及探索性分析,斷詞、詞性標示和搭配詞偵測、文本資料表示與其應用、以及主題建模。 

課程目標
1. 同學能夠對基本的文本探勘方法、技術與應用,有足夠的認識。
2. 同學能夠應用電腦程式,蒐集大量文本資料。
3. 同學能夠了解如何運用自然語言處理技術,進行文本資料的清理、表示、分類、聚群等處理,解決當前的問題。 
課程要求
課程中依據文本探勘的適用任務以及處理程序安排四個Short-Term Projects,同學需按時完成每次Short-Term Project。 
預期每週課後學習時數
4~6小時 
Office Hours
每週五 12:00~14:50 
指定閱讀
 
參考書目
Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). A brief survey of text mining: Classification, clustering and extraction techniques. arXiv preprint arXiv:1707.02919.

Lauriola, I., Lavelli, A., & Aiolli, F. (2022). An introduction to deep learning in natural language processing: Models, techniques, and tools. Neurocomputing, 470, 443-456.

Quinn, K. M., Monroe, B. L., Colaresi, M., Crespin, M. H., & Radev, D. R. (2010) How to analyze political attention
with minimal assumptions and cost. American Journal of Political Science, 54(1), 209-228. doi: 10.1111/j.1540-5907.2009.00427.x

Ignatow, G., & Mihalcea, R. (2017). An Introduction to Text Mining: Research Design, Data collection, and Analysis. Sage Publications.

Vajjala, S., Majumder, B., Gupta, A., & Surana, H. (2020). Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems. O'Reilly Media.
 
評量方式
(僅供參考)
 
No.
項目
百分比
說明
1. 
80% 
Short-Term Projects (20% for Each Project) 
2. 
20% 
In-class Response 
 
針對學生困難提供學生調整方式
 
上課形式
提供學生彈性出席課程方式
作業繳交方式
延長作業繳交期限, 學生與授課老師協議改以其他形式呈現
考試形式
其他
由師生雙方議定
課程進度
週次
日期
單元主題
第1週
2/24  Course Introduction (Approaches and Applications of Text Mining) 
第2週
3/3  Python Programming (I): Data Type 
第3週
3/10  Python Programming (II): Pandas DataFrame 
第4週
3/17  Python Programming (III): String and Regular Expression 
第5週
3/24  Web Scraper 
第6週
3/31  Preprocessing and Exploratory Data Analysis 
第7週
4/7  Short-term Project 1 
第8週
4/14  Word Segmentation and Part-of-Speech Tagging 
第9週
4/21  Collocation Extraction 
第10週
4/28  Short-term Project 2 
第11週
5/5  Text Representation (I): Word Embedding Model 
第12週
5/12  Text Representation (II): Transformers 
第13週
5/19  Short-term Project 3 
第14週
5/26  Topic Modeling (I) 
第15週
6/2  Topic Modeling (II) 
第16週
6/9  Short-term Project 4