課程名稱 |
R語言與資料科學導論 Introduction to Data Science with R |
開課學期 |
106-1 |
授課對象 |
文學院 語言學研究所 |
授課教師 |
謝舒凱 |
課號 |
LING5502 |
課程識別碼 |
142 U0750 |
班次 |
|
學分 |
3.0 |
全/半年 |
半年 |
必/選修 |
選修 |
上課時間 |
星期四7,8,9(14:20~17:20) |
上課地點 |
博雅201 |
備註 |
基本能力課程‧。基本能力課程。 總人數上限:95人 |
Ceiba 課程網頁 |
http://ceiba.ntu.edu.tw/1061rlads |
課程簡介影片 |
|
核心能力關聯 |
核心能力與課程規劃關聯圖 |
課程大綱
|
為確保您我的權利,請尊重智慧財產權及不得非法影印
|
課程概述 |
駕馭文本數據的需要
大數據 (Big Data) 的時代,數位資料累積與增長的速度已經遠遠倍增於人類史上的任何階段。這樣一種鉅量資料風潮,不僅改變了人文社會與自然科學研究的面貌,在各項產業也產生了分析資料輔佐決策的迫切需求。在此背景下,數位素養 (digital literacy) 已經成為現代公 民必須具備的基本素養之一,近年來新興的資料科學家 (data scientist) 更成為當前最為熱門的行業之一。
然而由於數據資料的發展,隨著社交媒體與社會網路的發展,非結構性的文本資料所佔比例已經遠超過結構性的表格性資料,使得文本的語言分析在資料科學發展中的角色顯得愈來愈重要,特別對於人文與社會科學的學生而言,更是開啟了一個結合數位科技與人文關懷的新的發展方向。
本教程的設計,就是在這個動機之下,透過介紹語言學與文本分析知識結合統計計算,希望能夠刺激人文、社會、傳播與其他財務管理、醫學等各領域學生之間的互動協作與學習,培養跨領域的興趣與分析能力。 |
課程目標 |
資料科學家的工作, 可以視為是一個探索、預測與解讀資料意義的互動歷程。而語言分析的工作, 在了解文本資料的語意與情緒表現上是重要的關鍵。本課程結合 了目前統計程式設計與自然語言處理技術, 以較為簡潔容易入門的設計與實際操作導引, 希望可以讓毫無相關程式學習基礎的學生在本課程的帶領下, 達到以下的學習目標:
- 了解結構與非結構性資料的特性與預處理工作, 特別是針對中文文本中呈現的語言特性的處理方法。
- 了解中文的語言特性與文本解析 (text analytics) 的基本概念。
- 選擇適當的變數與特徵並加以合理調製, 對之進行描述統計與視覺探勘, 針對不同的問題點與數據類型, 找出適當的圖形表達與統計分析。
- 學習簡易的自然語言處理與機器學習預測模式, 並應用在自己關心的領域。 |
課程要求 |
課程設計以未修習過 R 語言的同學為主,有基本基礎想要進一步應用在文本數據分析上的同學也歡迎。 |
預期每週課後學習時數 |
|
Office Hours |
|
參考書目 |
待補 |
指定閱讀 |
待補 |
評量方式 (僅供參考) |
|
|