課程名稱 |
資料科學導論 Introduction to Data Science |
開課學期 |
108-2 |
授課對象 |
文學院 圖書資訊學系 |
授課教師 |
楊東謀 |
課號 |
LIS5088 |
課程識別碼 |
126 U1510 |
班次 |
|
學分 |
2.0 |
全/半年 |
半年 |
必/選修 |
選修 |
上課時間 |
星期一8,9(15:30~17:20) |
上課地點 |
圖資資訊室 |
備註 |
限文學院學生。U選課程,學士班與碩士班學生均可選修。 總人數上限:30人 外系人數限制:5人 |
Ceiba 課程網頁 |
http://ceiba.ntu.edu.tw/1082LIS5088_ |
課程簡介影片 |
|
核心能力關聯 |
核心能力與課程規劃關聯圖 |
課程大綱
|
為確保您我的權利,請尊重智慧財產權及不得非法影印
|
課程概述 |
此課程為知識管理學程的課程之一。由於近年來資料科學相關議題興起,而資料科學的相關知識與能力之培養涉及跨學科與領域的學習。此課程之定位為資料科學的導論課程,以期裝備學生對於資料科學議題的認知,給予學生對於其所涉及之學科領域的基本介紹。學生在修習此課程之後,可再修習資料科學的相關進階課程,以培養資料科學的能力。
課程內容為介紹資料科學的基本概念與其應用發展。在相關技術方面,課程會針對資料科學領域常見之統計與機器學習方法(如單純貝式分析、相關分析、迴歸與因素分析、群集分析、分類分析、類神經網路、基因演算法等)作基本概念介紹,以協助同學瞭解這些方法的應用為何。
本課程以圖資系學生為主要授課對象,並限文學院學生。
此外,其它資料科學議題,將會再視課程進度與時間進行彈性補充。諸如資料儲存(關聯式資料庫、結構式查詢語言與NoSQL資料庫)、大數據的應用框架(Apache Hadoop、MapReduce、Apache Spark等)、資料呈現(資料視覺化議題)、資料來源(政府開放資料、資料庋用等)、與語意網和鏈結資料。 |
課程目標 |
建立學生於資料科學領域的基本認識,以鼓勵學生後續修習資料科學領域之其它相關與進階課程 |
課程要求 |
課堂討論參與、以及報告與考試 |
預期每週課後學習時數 |
|
Office Hours |
每週二 10:30~12:00 備註: or by appointment |
指定閱讀 |
以授課老師之課堂講義為主,並輔以其它相關專書章節 |
參考書目 |
• Saltz, J. S., & Stanton, J. M. (2017). An Introduction to Data Science. Sage Publishing.
• Ng, A., & Soo, K. (2017). Numsense! Data Science for the Layman: No Math Added. Annalyn Ng & Kenneth Soo.
• Pierson, L. (2017). Data Science for Dummies: For Dummies.
• Johnston, L. R. (2017). Curating research data. Chicago: American Library Association.
• Peng, R. (2016). R Programming for Data Science: lulu.com.
• Kabacoff, R. (2015). R in Action- Data Analysis and Graphics with R (2 ed.): Manning Publications.
• Gama, A. P. (Ed.). (2015). Knowledge Engineering: Principles, Methods and Applications: Nova Science Pub Inc.
• Grus, J. (2015). Data Science from Scratch- First Principles with Python: O'Reilly Media.
• Zumel, N., Mount, J., & Porzak, J. (2014). Practical Data Science with R: Manning Publications.
• Provost, F., & Fawcett, T. (2013). Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking: O'Reilly Media.
• Allemang, D., & Hendler, J. (2011). Semantic Web for the Working Ontologist (2nd ed.): Morgan Kaufmann.
• Milton, M. (2009). Head First Data Analysis: A learner's guide to big numbers, statistics, and good decisions: O'Reilly Media.
• Antoniou, G., & Harmelen, F. v. v. (2008). A Semantic Web Primer (2nd ed.): The MIT Press.
• Griffiths, D. (2008). Head First Statistics: A Brain-Friendly Guide: O'Reilly Media.
• Kendal, S., & Creen, M. (2007). An Introduction to Knowledge Engineering: Springer.
• Berners-Lee, Tim, James Hendler and Ora Lassila (2001). The Semantic Web. |
評量方式 (僅供參考) |
No. |
項目 |
百分比 |
說明 |
1. |
課堂出席、課堂參與和討論 |
10% |
|
2. |
期末專題報告 |
30% |
|
3. |
期末考試 |
60% |
|
|
週次 |
日期 |
單元主題 |
第1週 |
3/02 |
Course Introduction |
第2週 |
3/09 |
Knowledge Engineering & Data Science |
第3週 |
3/16 |
Getting Started with Data Science
Types of Data Analytics
What is Machine Learning |
第4週 |
3/23 |
Naïve Bayes: Conditional Probability
T-tests, ANOVA, MANOVA |
第5週 |
3/30 |
Correlation Analysis
Regression Analysis |
第6週 |
4/06 |
Factor Analysis
Principle Component Analysis |
第7週 |
4/13 |
Time Series Analysis
Clustering- Geometric Metrics |
第8週 |
4/20 |
(期中考週)
K-Means Clustering Algorithm
Hierarchical Clustering Algorithm |
第9週 |
4/27 |
Kernel Density Estimation
Decision Tree I |
第10週 |
5/04 |
Decision Tree IIRandom Forest |
第11週 |
5/11 |
Average Nearest NeighborK-Nearest Neighbor |
第12週 |
5/18 |
Support Vector Machine, Validation of Predictive Models
Association Analysis(Market Basket Analysis) |
第13週 |
5/25 |
Artificial Neural Networks (ANN) I |
第14週 |
6/01 |
Artificial Neural Networks (ANN) IIGenetic Algorithm |
第15週 |
6/08 |
Group Project Presentation (Brief and Preliminary Introduction) |
第16週 |
6/15 |
期末考 |
第17週 |
6/22 |
Group Project Term Paper |
第18週 |
6/29 |
Group Project Term Paper. Due on 6/29 |
|