課程資訊
課程名稱
文本探勘方法與應用
Text Mining Approaches and Applications 
開課學期
110-2 
授課對象
文學院  圖書資訊學系  
授課教師
林頌堅 
課號
LIS5100 
課程識別碼
126 U1630 
班次
 
學分
3.0 
全/半年
半年 
必/選修
選修 
上課時間
星期五2,3,4(9:10~12:10) 
上課地點
圖資資訊室 
備註
U選課程,學士班與碩士班學生均可修習。
總人數上限:30人 
 
課程簡介影片
 
核心能力關聯
核心能力與課程規劃關聯圖
課程大綱
為確保您我的權利,請尊重智慧財產權及不得非法影印
課程概述

本課程首先簡介文本探勘的應用、方法、適用任務以及處理程序,接著介紹文本探勘研究與應用常用的Python程式語言和相關套件。隨後,將以臺大PTT BBS上的網路文本資料為例,說明文本的採集方法。最後,說明與練習文本探勘所應用的各種自然語言處理方法與技術,包括前處理以及探索性分析,斷詞、詞性標示、命名實體辨識和搭配詞偵測,文本資料表示,以及文本分類和主題模型。 

課程目標
1. 同學能夠對基本的文本探勘方法、技術與應用,有足夠的認識。
2. 同學能夠應用電腦程式,蒐集大量文本資料。
3. 同學能夠了解如何運用自然語言處理技術,進行文本資料的清理、表示、分類、聚群等處理,解決當前的問題。 
課程要求
課程中依據文本探勘的適用任務以及處理程序安排四個Short-Term Projects,同學需按時完成每次Short-Term Project。 
預期每週課後學習時數
 
Office Hours
 
指定閱讀
 
參考書目
Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). A brief survey of text mining: Classification, clustering and extraction techniques. arXiv preprint arXiv:1707.02919.
Ignatow, G., & Mihalcea, R. (2017). An Introduction to Text Mining: Research Design, Data collection, and Analysis. Sage Publications.
Quinn, K. M., Monroe, B. L., Colaresi, M., Crespin, M. H., & Radev, D. R. (2010) How to analyze political attention with minimal assumptions and cost. American Journal of Political Science, 54(1), 209-228. doi: 10.1111/j.1540-5907.2009.00427.x
Vajjala, S., Majumder, B., Gupta, A., & Surana, H. (2020). Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems. O'Reilly Media. 
評量方式
(僅供參考)
   
課程進度
週次
日期
單元主題
第1週
2/18  Course Introduction 
第2週
2/25  Applications of Text Mining 
第3週
3/4  Introduction to Python Programming (I): Data Type 
第4週
3/11  Introduction to Python Programming (II): Pandas DataFrame 
第5週
3/18  Introduction to Python Programming (III): String and Regular Expression 
第6週
3/25  Text Data Acquisition—PPT BBS 
第7週
4/1  Preprocessing and Exploratory Data Analysis 
第8週
4/8  Short-term Project 1 
第9週
4/15  Word Segmentation and Part-of-Speech Tagging 
第10週
4/22  Collocation Extraction 
第11週
4/29  Short-term Project 2 
第12週
5/6  Name Entity Recognition 
第13週
5/13  Text Representation-- Word Embedding Model 
第14週
5/20  Short-term Project 3 
第15週
5/27  Topic Modeling (I) 
第16週
6/3  Topic Modeling (II) 
第17週
6/10  Short-term Project 4