課程資訊
課程名稱
文本探勘方法與應用
Text Mining Approaches and Applications 
開課學期
112-2 
授課對象
文學院  圖書資訊學系  
授課教師
林頌堅 
課號
LIS5100 
課程識別碼
126 U1630 
班次
 
學分
3.0 
全/半年
半年 
必/選修
選修 
上課時間
星期五2,3,4(9:10~12:10) 
上課地點
圖資資訊室 
備註
U選課程,學士班與碩士班學生均可修習。
總人數上限:30人 
 
課程簡介影片
 
核心能力關聯
核心能力與課程規劃關聯圖
課程大綱
為確保您我的權利,請尊重智慧財產權及不得非法影印
課程概述

文本探勘是從大量的非結構性文字資料中發現並擷取出有用或有意義的樣式、主題結構或是類別等,以便進行後續的分析與應用。本課程將從基本的程式設計開始,導入文本探勘常用的套件與工具,然後以實際的案例進行文本資料的蒐集、清理與分析。本課程也將介紹大型語言模型在文本探勘和知識檢索上的應用,以及主題建模的概念與技術。 

課程目標
1. 同學能夠對基本的文本探勘方法、技術與應用,有足夠的認識。
2. 同學能夠應用電腦程式,蒐集大量文本資料。
3. 同學能夠了解如何運用自然語言處理技術,進行文本資料的清理、表示、分類、聚群等處理,解決當前的問題。 
課程要求
In-class Response (30%); Short-Term Project (20%*2); Final Project (30%) 
預期每週課後學習時數
 
Office Hours
 
指定閱讀
待補 
參考書目
Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). A brief survey of text mining: Classification, clustering and extraction techniques. arXiv preprint arXiv:1707.02919.

Lauriola, I., Lavelli, A., & Aiolli, F. (2022). An introduction to deep learning in natural language processing: Models, techniques, and tools. Neurocomputing, 470, 443-456.

Quinn, K. M., Monroe, B. L., Colaresi, M., Crespin, M. H., & Radev, D. R. (2010) How to analyze political attention
with minimal assumptions and cost. American Journal of Political Science, 54(1), 209-228. doi: 10.1111/j.1540-5907.2009.00427.x

Ignatow, G., & Mihalcea, R. (2017). An Introduction to Text Mining: Research Design, Data collection, and Analysis. Sage Publications.

Vajjala, S., Majumder, B., Gupta, A., & Surana, H. (2020). Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems. O'Reilly Media. 
評量方式
(僅供參考)
   
課程進度
週次
日期
單元主題
第1週
2/23  課程介紹 
第2週
3/01  Unit 1 python程式設計簡介 
第3週
3/08  Unit 1 pandas套件 
第4週
3/15  Unit 1 正則表示法 regular expression 
第5週
3/22  Unit 2 網頁抓取 web scraping 
第6週
3/29  Unit 2 探索性資料分析與資料清理 
第7週
4/05  補假 
第8週
4/12  Unit 2 中文分詞、詞類標示與詞頻統計 
第9週
4/19  Short-Term Project 1 
第10週
4/26  Unit 3 大型語言模型基本概念與文本探勘應用 
第11週
5/03  Unit 3 Retrieval Augmented Generation 
第12週
5/10  Short-Term Project 2 
第13週
5/17  Unit 4 主題建模基本概念與LDA演算法 
第14週
5/24  Unit 4 主題建模分析與應用 
第15週
5/31  討論:文本探勘的新興進展與應用 
第16週
6/07  Final Project