本課程的目標是學習最前瞻的深度學習與自然語言處理技術,這不是一門深度學習的入門課程,也不是一門自然語言處理入門課程,你需要同時熟悉深度學習和自然語言處理並且具備實作能力才有足夠的能力修這門課,如果你沒有實作過 SQuAD 上的任何 model (或是根本沒有聽過SQuAD),那這門課對你來說就太難了。此外,有意修課的同學請自備運算資源,例如 GPU,比較能夠順利修課。
本課程在設計上以自我學習和實作為導向,**本課程並沒有教師親自授課**,上課時間會播放老師挑選的 NLP相關線上課程錄影(也就是翻轉的翻轉教室,一個 (A^T)^T = A 的概念),大家有問題可以發問,另外也會請同學上台報告。本課程的運作模式比較接近專題研究,請確定你可以接受這種上課模式,才來修習本課程。
本課程的作業會是科技部所舉辦的科技大擂台過去的試題或是助教群自行製作的模擬試題。作業雖然是出自或是模擬科技部的競賽,但是 **跟科技部的競賽無關** ,也就是說,修課的同學並不需要同時參加科技部的競賽,如果你有參加的話,你在正式比賽中的表現也不在本課程的評分標準中。
科技大擂台的比賽是以 QA 為主,你可以想成就是機器的中文托福聽力測驗,這個比賽並不是一般的機器學習問題,首先,難度非常高,超越今日機器學習技術的極限,其次,比賽中是沒有提供訓練資料的, **如何蒐集訓練資料也是挑戰的一環**。也就是說本課程的作業比較像是在做研究,我們並不知道科技大擂台的題目正確率可以做到甚麼地步、這是範例試題:https://youtu.be/W0O9L-2Gz3Y,從中可以看出比賽的難度非常高,我們是在挑戰今日技術的極限,我們不知道甚麼樣的技術才是最好的解法,我們手上有一些台達電提供的訓練資料:https://github.com/DRCSolutionService/DRCD,但是和比賽的題目沒有直接匹配,可能需要一些 transfer learning 的技術才能派上用場,也有可能完全幫不上忙。因此本課程有可能在瞎忙一個學期後,發現沒有任何機器學習的技術可以解科技大擂台的題目,rule-based 才是最強 …..。也就是說,這門課其實是要組團打王,如果你還是初心者,這門課對你來說太過危險。
上述的課程的運作方式,比較類似專題研究,30 人左右的修課人數是比較恰當的,因此初選不開放選課,所有希望選課的學生都私下跟我面談過,大家瞭解上述的運作方式,並確定是可以接受的才加簽。
|