|
課程名稱 |
文本探勘方法與應用 Text Mining Approaches and Applications |
|
開課學期 |
113-2 |
|
授課對象 |
文學院 圖書資訊學研究所 |
|
授課教師 |
林頌堅 |
|
課號 |
LIS5100 |
|
課程識別碼 |
126 U1630 |
|
班次 |
|
|
學分 |
3.0 |
|
全/半年 |
半年 |
|
必/選修 |
選修 |
|
上課時間 |
星期五2,3,4(9:10~12:10) |
|
上課地點 |
圖資資訊室 |
|
備註 |
U選課程,學士班與碩士班學生均可修習。 總人數上限:30人 |
|
|
|
|
課程簡介影片 |
|
|
核心能力關聯 |
核心能力與課程規劃關聯圖 |
|
課程大綱
|
|
為確保您我的權利,請尊重智慧財產權及不得非法影印
|
|
課程概述 |
文本探勘是從大量的非結構性文字資料中發現並擷取出有用或有意義的樣式、主題結構或是類別等,以便進行後續的分析與應用。本課程將從基本的程式設計開始,導入文本探勘常用的套件與工具,然後以實際的案例進行文本資料的蒐集、清理與分析。本課程也將介紹大型語言模型在文本探勘和知識檢索上的應用,以及主題建模的概念與技術。 |
|
課程目標 |
1. 同學能夠對基本的文本探勘方法、技術與應用,有足夠的認識。
2. 同學能夠應用電腦程式,蒐集大量文本資料。
3. 同學能夠了解如何運用自然語言處理技術,進行文本資料的清理、表示、分類、聚群等處理,解決當前的問題。 |
|
課程要求 |
In-class Response (10%); Short-Term Project (30%*3) |
|
預期每週課前或/與課後學習時數 |
|
|
Office Hours |
每週五 13:00~16:50 |
|
指定閱讀 |
待補 |
|
參考書目 |
Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). A brief survey of text mining: Classification, clustering and extraction techniques. arXiv preprint arXiv:1707.02919.
Lauriola, I., Lavelli, A., & Aiolli, F. (2022). An introduction to deep learning in natural language processing: Models, techniques, and tools. Neurocomputing, 470, 443-456.
Quinn, K. M., Monroe, B. L., Colaresi, M., Crespin, M. H., & Radev, D. R. (2010) How to analyze political attention
with minimal assumptions and cost. American Journal of Political Science, 54(1), 209-228. doi: 10.1111/j.1540-5907.2009.00427.x
Ignatow, G., & Mihalcea, R. (2017). An Introduction to Text Mining: Research Design, Data collection, and Analysis. Sage Publications.
Vajjala, S., Majumder, B., Gupta, A., & Surana, H. (2020). Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems. O'Reilly Media. |
|
評量方式 (僅供參考) |
|
No. |
項目 |
百分比 |
說明 |
|
1. |
課堂表現 |
10% |
出席及課堂回應 |
2. |
作業一 |
30% |
詞頻統計:斷詞及詞類標記,搭配詞分析,統計詞頻。根據統計資訊,解釋重要詞語代表的意義。 |
3. |
作業二 |
30% |
檢索增強生成改良:提出改善檢索增強生成的建議,並且進行實驗,了解成效。 |
4. |
作業三 |
30% |
主題模型的詮釋:對文本進行主題建模,發現文本中蘊藏的主題,並解釋這些主題的意義,觀察主題在文本上的分布。 |
- 本校尚無訂定 A+ 比例上限。
- 本校採用等第制評定成績,學生成績評量辦法中的百分制分數區間與單科成績對照表僅供參考,授課教師可依等第定義調整分數區間。詳見學習評量專區 (連結)。
|
|
針對學生困難提供學生調整方式 |
|
上課形式 |
提供學生彈性出席課程方式 |
|
作業繳交方式 |
延長作業繳交期限, 書面報告取代口頭報告, 學生與授課老師協議改以其他形式呈現 |
|
考試形式 |
|
|
其他 |
由師生雙方議定 |
|
|
週次 |
日期 |
單元主題 |
|
第1週 |
2/21 |
課程介紹 |
|
第2週 |
2/28 |
228紀念日 |
|
第3週 |
3/7 |
Unit 1 python程式設計簡介 |
|
第4週 |
3/14 |
Unit 1 pandas套件與資料檔案格式 |
|
第5週 |
3/21 |
Unit 1 字串處理與語意檢索 |
|
第6週 |
3/28 |
Unit 2 資料蒐集、探索性資料分析與資料清理 |
|
第7週 |
4/4 |
清明節 |
|
第8週 |
4/11 |
Unit 2 中文分詞、詞類標示、搭配詞選取與詞頻統計 |
|
第9週 |
4/18 |
討論與作業一 |
|
第10週 |
4/25 |
Unit 3 大型語言模型及API介紹 |
|
第11週 |
5/2 |
Unit 3 Retrieval Augmented Generation |
|
第12週 |
5/9 |
討論與作業二 |
|
第13週 |
5/16 |
Unit 4 主題建模基本概念與LDA演算法 |
|
第14週 |
5/23 |
Unit 4 主題建模分析與應用 |
|
第15週 |
5/30 |
端午節彈性放假 |
|
第16週 |
6/6 |
討論與作業三 |
|