課程名稱 |
文本探勘方法與應用 Text Mining Approaches and Applications |
開課學期 |
112-2 |
授課對象 |
文學院 圖書資訊學系 |
授課教師 |
林頌堅 |
課號 |
LIS5100 |
課程識別碼 |
126 U1630 |
班次 |
|
學分 |
3.0 |
全/半年 |
半年 |
必/選修 |
選修 |
上課時間 |
星期五2,3,4(9:10~12:10) |
上課地點 |
圖資資訊室 |
備註 |
U選課程,學士班與碩士班學生均可修習。 總人數上限:30人 |
|
|
課程簡介影片 |
|
核心能力關聯 |
核心能力與課程規劃關聯圖 |
課程大綱
|
為確保您我的權利,請尊重智慧財產權及不得非法影印
|
課程概述 |
文本探勘是從大量的非結構性文字資料中發現並擷取出有用或有意義的樣式、主題結構或是類別等,以便進行後續的分析與應用。本課程將從基本的程式設計開始,導入文本探勘常用的套件與工具,然後以實際的案例進行文本資料的蒐集、清理與分析。本課程也將介紹大型語言模型在文本探勘和知識檢索上的應用,以及主題建模的概念與技術。 |
課程目標 |
1. 同學能夠對基本的文本探勘方法、技術與應用,有足夠的認識。
2. 同學能夠應用電腦程式,蒐集大量文本資料。
3. 同學能夠了解如何運用自然語言處理技術,進行文本資料的清理、表示、分類、聚群等處理,解決當前的問題。 |
課程要求 |
In-class Response (30%); Short-Term Project (20%*2); Final Project (30%) |
預期每週課後學習時數 |
|
Office Hours |
|
指定閱讀 |
待補 |
參考書目 |
Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). A brief survey of text mining: Classification, clustering and extraction techniques. arXiv preprint arXiv:1707.02919.
Lauriola, I., Lavelli, A., & Aiolli, F. (2022). An introduction to deep learning in natural language processing: Models, techniques, and tools. Neurocomputing, 470, 443-456.
Quinn, K. M., Monroe, B. L., Colaresi, M., Crespin, M. H., & Radev, D. R. (2010) How to analyze political attention
with minimal assumptions and cost. American Journal of Political Science, 54(1), 209-228. doi: 10.1111/j.1540-5907.2009.00427.x
Ignatow, G., & Mihalcea, R. (2017). An Introduction to Text Mining: Research Design, Data collection, and Analysis. Sage Publications.
Vajjala, S., Majumder, B., Gupta, A., & Surana, H. (2020). Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems. O'Reilly Media. |
評量方式 (僅供參考) |
|
週次 |
日期 |
單元主題 |
第1週 |
2/23 |
課程介紹 |
第2週 |
3/01 |
Unit 1 python程式設計簡介 |
第3週 |
3/08 |
Unit 1 pandas套件 |
第4週 |
3/15 |
Unit 1 正則表示法 regular expression |
第5週 |
3/22 |
Unit 2 網頁抓取 web scraping |
第6週 |
3/29 |
Unit 2 探索性資料分析與資料清理 |
第7週 |
4/05 |
補假 |
第8週 |
4/12 |
Unit 2 中文分詞、詞類標示與詞頻統計 |
第9週 |
4/19 |
Short-Term Project 1 |
第10週 |
4/26 |
Unit 3 大型語言模型基本概念與文本探勘應用 |
第11週 |
5/03 |
Unit 3 Retrieval Augmented Generation |
第12週 |
5/10 |
Short-Term Project 2 |
第13週 |
5/17 |
Unit 4 主題建模基本概念與LDA演算法 |
第14週 |
5/24 |
Unit 4 主題建模分析與應用 |
第15週 |
5/31 |
討論:文本探勘的新興進展與應用 |
第16週 |
6/07 |
Final Project |
|