課程資訊
課程名稱
電腦輔助翻譯
Computer-aided Translation 
開課學期
110-1 
授課對象
學程  中英翻譯學程  
授課教師
高照明 
課號
FL3285 
課程識別碼
102 31830 
班次
 
學分
2.0 
全/半年
半年 
必/選修
選修 
上課時間
星期三3,4(10:20~12:10) 
上課地點
外教104 
備註
語言文化基礎課程。
總人數上限:20人 
Ceiba 課程網頁
http://ceiba.ntu.edu.tw/1101FL3285_ 
課程簡介影片
 
核心能力關聯
核心能力與課程規劃關聯圖
課程大綱
為確保您我的權利,請尊重智慧財產權及不得非法影印
課程概述

本課程介紹如何利用科技改善翻譯的品質與速度,內容包括電腦輔助翻譯的原理,英漢平行語料庫的建立、單語及平行語料庫的檢索、中英文術語的擷取、雙語句子的對齊、翻譯記憶系統、搭配語的擷取、及如何利用可比語料庫與各種數位工具來協助翻譯。各週進度如下。
1電腦輔助翻譯概述,如何利用Google Translate 及DeepL機器翻譯系統於前編輯及後編輯﹑如何運用平行語料Linguee及單語語料Netspeak於翻譯實務。
2翻譯記憶系統使用的時機與流程﹑如何利用Omega T建立翻譯記憶並利用翻譯記憶於翻譯實務。如何利用術語庫。
3雲端電腦輔助翻譯軟體MateCat的功能。翻譯記憶的格式(TMX)。模糊比對的原理。如何在Colab上利用grep檢索翻譯記憶。
4 如何用Netspeak與 Linguee來驗證Google Translate 和DeepL的答案是否正確
5 單語語料庫的建置與檢索I:Concordances, Word List, Ngrams(AntConc)。
6. 語料庫的建置與檢索II Keyword List, Collocates(AntConc)及背後的統計。
7 語料庫的建置與檢索III 中文分詞 SegmentAnt+AntConc。Google Colab程式。
8 語料庫的建置與檢索IV 英文詞性標記程式TagAn + AntConc。Google Colab程式。
9 Regular Expressions。詞組與術語的擷取。AntConc,Cuda Text, NLTK, Spacy.
10 平行語料庫的建置 (LF Aligner, AntPConc, CUC_ParaConc)。
11 UNIX for Poets (I)實做(著重grep 指令如何檢索各種資料)
12 UNIX for Poets (II)實做
13 從平行語料庫擷取雙語詞彙﹑術語﹑及搭配語 。
14 可比語料庫的建置與檢索
15參訪萬象翻譯社
16 Term Project實做 

課程目標
修課的學生經過一學期的訓練之後能夠將數位工具與翻譯實務結合。知道為何,如何,及何時該使用什麼工具和方法來增進翻譯的品質和速度。在哪些地方可以收集到翻譯資源,以及如何將這些翻譯資源轉成翻譯記憶,並用於電腦輔助翻譯系統。學生修完課之後將熟悉相關的數位工具的步驟及背後的原理。 
課程要求
由於每週上課時間只有兩小時,無法在上課時間讓同學進行實做。因此實做部分,將透過作業及期末報告進行,如果同學忘記工具或程式如何操作,請觀看上課投影片及課程講解錄影。
1上課出席率10%
2作業: 60% (以下每一項佔總分6分)
(1)利用Google Translate 及DeepL機器翻譯系統於前編輯及後編輯。
(使用之數位工具及技術:Google Translate + DeepL機器翻譯系統。翻譯策略:前編輯及之+後編輯)
(2)運用雙語平行語料庫Linguee, Jukuu, 和我們所開發的中英雙語檢索程式,以及單語語料庫Netspeak於翻譯實務。
(使用之數位工具及技術:雙語平行語料庫之檢索Linguee + Jukuu + 我們所開發的中英雙語檢索程式 + 單語語料庫Netspeak 。翻譯策略:將整句翻譯的問題切割成幾個可以透過雙語平行語料庫及單語語料庫檢索得到答案的小問題)
(3)利用Omega T建立翻譯記憶及術語庫並運用翻譯記憶於翻譯實務。
(使用之數位工具及技術:Omega T電腦輔助翻譯系統+翻譯記憶+術語庫。翻譯策略:根據翻譯記憶中最接近的例句來修改並透過語料庫工具驗證。)
(4)利用AntConc 中Concordances, Word List, Ngrams, Keyword List, Collocates, regular expressions等功能於翻譯實務。
(使用之數位工具及技術:運用AntConc文本分析軟體找出文本的特徵。翻譯策略:依據文本的特徵來進行翻譯或作為翻譯佐證)
(5)利用LF Aligner建置句對齊之雙語平行語料庫並用AntPConc或 CUC_ParaConc檢索雙語語料。
(使用之數位工具及技術:LF Aligner+AntPConc+CUC_ParaConc。翻譯策略:建立翻譯資源)
(6)利用英文詞性標記程式TagAnt , AntConc, CudaText 中Regular Expressions功能擷取英文名詞組並用Colab程式呼叫Google Translate擷取名詞組翻譯。
(使用之數位工具及技術:TagAnt + AntConc + CudaText + Regular Expressions 擷取名詞組+ 呼叫Google Translate擷取名詞組翻譯。翻譯策略:自動取得名詞組翻並根據語料庫的資料修改答案)
(7)運用中文分詞及詞性標記程式擷取中文關鍵詞組。
(使用之數位工具及技術:自動中文分詞 +自動詞性標記程式 + 自動擷取中文關鍵詞組 + 呼叫Google Translate自動擷取中文關鍵詞組的英文翻譯。翻譯策略:自動取得中文關鍵詞組的英文翻譯並根據語料庫的資料修改答案)
(8)呼叫Colab中文以及英文分句程式並呼叫Google Translate取得翻譯。
(9)呼叫Colab英文術語自動擷取程式並呼叫Google Translate取得翻譯。
(10)利用Colab雲端程式建置可比語料庫並用於翻譯實務。
(11)利用grep檢索語料或TMX資料中的翻譯。

3口頭報告: 10% 需包括作業中所涵蓋的數位工具至少3項以上。
4期末書面報告: 20%需包括作業中所涵蓋的數位工具至少3項以上。
 
預期每週課後學習時數
 
Office Hours
 
參考書目
Gao, Zhao-Ming. (2011) "Exploring the effects and use of a Chinese–English parallel concordancer." Computer-assisted Language Learning, Vol. 24, No. 3, pp. 255-275.

Gao, Zhao-Ming. (2014). ‘Automatic extraction of English collocations and their Chinese-English bilingual examples: a computational tool for bilingual lexicography’. Concentric Studies in Linguistics, Vol. 40, No. 1, pp. 95-121.

Gao, Z.M. and Chiou, S.-H. (2018). Computer-aided Translation. In Shei, C. and Gao, Z.-M. (eds.). The Routledge Handbook of Chinese Translation, pp. 485.-505.

Gao, Zhao-Ming. (2021). ‘Automatically Compiling Bilingual Legal Glossaries Based on Chinese-English Parallel Corpora’ In Saihong Li and William Hope (eds.) Terminology Translation in Chinese Contexts: Theory and Practice. London and New York: Routledge.

Jacquemin, Christian. (2001). Spotting and Discovering Terms through Natural Language Processing. MIT Press.

Koehn, Philipp (2010) Statistical Machine Translation. Cambridge University Press.

Mikhailov, Mikhail and Cooper, Robert. (2016). Corpus Linguistics for Translation and Contrastive Studies: A Guide for Research. Routledge.

Olohan, Maeve. (2014). Introducing Corpora in Translation Studies. Routledge.

Quah, Chiew Kin. (2005). Translation and Technology. Palgrave Macmillan.

Shei, C. and Gao, Z.-M. (eds.). (2018). The Routledge Handbook of Chinese Translation. Routledge.

Zanettin, Federico. (2012). Translation-driven Corpora: Corpus Resources for Descriptive and Applied Translation Studies. St. Jerome Publishing.
 
指定閱讀
Bowker, Lynne. (2002). Computer-Aided Translation Technology: A Practical Introduction. University of Ottawa Press. 
評量方式
(僅供參考)
   
課程進度
週次
日期
單元主題
第1週
9/22  本課程線上教學影片及投影片
https://www.openedu.tw/course.jsp?id=1342
第一週線上上課網址
meet.google.com/hjr-xasu-ioo
課程介紹及翻譯學概述(1本課程的教學目標﹑要求﹑上課及評量的方式) 2電腦輔助翻譯的架構(機器翻譯MT﹑翻譯記憶TM﹑術語庫Term Bank﹑語料庫Corpus Tools)3本課程所涵蓋的電腦輔助翻譯工具與課程進度4如何應用Nida 翻譯理論於翻譯實務 5 語言學與翻譯:詞彙﹑詞組﹑語法﹑語義﹑語用篇章各層次的翻譯對應。

第一週上課錄影
Week 1 Theories and Practice of Translation
Episode 1 Overview, Theories and Practice of Translation
影片連結
https://youtu.be/igqn4Yyknu4
Episode 2. Nida's Theory Lecture 1 Theories and Practice of Translation
影片連結
https://youtu.be/YxA17hfnevw
Episode 3. Applying Nida's Theory Lecture 1 Theories and Practice of Translation
影片連結
https://www.youtube.com/watch?v=Oi5cvTAtVws&t=35s
Episode 4. Baker's Theory.
https://www.youtube.com/watch?v=0fgZi6qhGLk
Episode 5. Applying Baker's Theory.
https://youtu.be/X4qLwp2vNlk 
第2週
9/29  第2週線上上課網址
https://ntucc.webex.com/ntucc/j.php?MTID=ma5740f96260ec7bd09007668740ef0ac

1 如何快速整合不同的機器翻譯系統如Google Translate﹑DeepL﹑Systran﹑Microsoft﹑百度等 2機器翻譯的前編輯與後編輯 (MT Pre-editing and Post-editing) 3如何結合辭典﹑語料庫﹑機器翻譯來改善翻譯的品質與速度 4如何用單語料庫檢索工具Netspeak﹑Linggle及平行語料庫檢索工具Linguee﹑ReversoContext來驗證機器翻譯是否正確。

第二週上課錄影網址。
Week 2 Online Dictionaries, Corpora, and MT Systems.
Episode 1 Introduction. Online Dictionaries, Corpora, and MT Systems.
https://youtu.be/Gu4eHimmvlw
Episode 2. Components of Computer-aided Translation by Professor Zhao-Ming Gao
https://youtu.be/Dj8kRtU8vLQ
Episode 3. Online Dictionaries.
https://www.youtube.com/watch?v=wDpghb3S5-4
Episode 4. Bilingual Corpora.
https://www.youtube.com/watch?v=NSF9qK-T3ww
Episode 5. Monolingual Corpora.
https://youtu.be/tFme403-u3g
Episode 6. A corpus-based approach to translation
https://youtu.be/k7L85qpRsJc
Episode 7. Integrating machine translation (MT) with online dictionaries and corpora
https://youtu.be/XFAiGaDdgJY
Episode 8. MT pre-editing and MT post-editing
https://youtu.be/eRmBbP7GeXU 
第3週
10/06  第3週線上上課網址
https://ntucc.webex.com/ntucc/j.php?MTID=mdc3a7b074d60ac3b9819a7d383522114

電腦輔助翻譯軟體Omega T的實作及雲端電腦輔助翻譯軟體MateCat的操作。


第三週上課錄影

Chap 3.1. An Overview of Chapter 3
影片連結
https://youtu.be/eVI4wtTMiWE
Chap 3.2. An Overview of Omega T
影片連結
https://youtu.be/oE05ZKJE2KI
Chap 3.3. Performing Sentence Alignment and Exporting a TMX File in OmegaT
影片連結
https://youtu.be/R3JFLUkqXA4
Chap 3.4. Understanding the Translation Memory eXchang (TMX) format
影片連結
https://youtu.be/Gr0gvI3VcTI
Chap 3.5 Using Translation Memory and Glossaries in Omega T
影片連結
https://youtu.be/zpKVG8pM3p0
 
第4週
10/13  第三週上課錄影


Chap 4.1. Overview https://www.youtube.com/watch?v=si6ILbShSxM Chap 4.2. Performing Sentence Alignment and Exporting a TMX File in MateCat https://www.youtube.com/watch?v=PSUm0KuKgrQ Chap 4. 3. Translation Memory eXchange (TMX) and XLIFF https://youtu.be/13gmrcsvtdg Chap 4.4. Principles behind Sentence Alignment and Fuzzy Matching https://youtu.be/ONmsss3PNGQ Chap 4.5. CAT Workflow in MateCat https://youtu.be/VTaoI6FR_A8
Chap 3.1. An Overview of Chapter 3
影片連結
https://youtu.be/eVI4wtTMiWE
Chap 3.2. An Overview of Omega T
影片連結
https://youtu.be/oE05ZKJE2KI
Chap 3.3. Performing Sentence Alignment and Exporting a TMX File in OmegaT
影片連結
https://youtu.be/R3JFLUkqXA4
Chap 3.4. Understanding the Translation Memory eXchang (TMX) format
影片連結
https://youtu.be/Gr0gvI3VcTI
Chap 3.5 Using Translation Memory and Glossaries in Omega T
影片連結
https://youtu.be/zpKVG8pM3p0 
第5週
10/20  如何對齊雙語平行文本的句子並檢索內容

Performing Sentence Alignment and Exporting a TMX File in MateCat https://www.youtube.com/watch?v=PSUm0KuKgrQ


Performing Sentence Alignment and Exporting a TMX File in OmegaT
https://youtu.be/R3JFLUkqXA4


Cuc_ParaConc http://nlp.csie.org/~sound/CAT/


https://tinyurl.com/b732wsx5 https://tinyurl.com/56h7y863 
第6週
10/27  文本分析軟體AntConc 4.0.10 版基本功能介紹
https://www.youtube.com/watch?v=V_JrdLXIdfg

語料庫的建置與檢索II Keyword List, Collocates(AntConc)及背後的統計 
第7週
11/03  1 An Overview of the lecture on Alignment Tools
https://youtu.be/ei1TnRY1TM0

2. Sentence Alignment Tools: MateCat Aligner, OmegaT Aligner, and LF Aligner
https://youtu.be/VDTrGkC_bv8

3. Localization Tools: TMX Editor and XLIFF Editor
https://youtu.be/kGXvJbM010s

4. Bilingual Concordance Tools: AntPConc and CUC_ParaConc
https://youtu.be/dLS1vXCJQe4

TMX Editor 8
https://www.dropbox.com/sh/15tz6sdr1ibp6s7/AADNAUCxKleoM1IZVqGbrUOga

Panarama Magazine
https://www.taiwan-panorama.com/zh/Articles/Details?Guid=05fd1428-4568-4eff-8105-57f52b789642&CatId=7&postname=%E8%B6%85%E5%89%8D%E9%83%A8%E7%BD%B2%E7%9A%84%E7%B6%A0%E8%89%B2%E9%81%8B%E7%AE%97%20-%E7%BE%8E%E8%B6%85%E5%BE%AE%E5%85%A8%E7%90%83%E7%B8%BD%E8%A3%81%E5%85%BC%E5%9F%B7%E8%A1%8C%E9%95%B7%E2%94%80%E2%94%80%E6%A2%81%E8%A6%8B%E5%BE%8C

https://www.taiwan-panorama.com/en/Articles/Details?Guid=d746f266-a3e8-43ba-9255-b278b72184ca&CatId=7&postname=The%20Green%20Computing%20Vanguard-Supermicro%E2%80%99s%20Charles%20Liang

語料庫的建置與檢索III 中文分詞 SegmentAnt+AntConc。Google Colab程式。 
第8週
11/10  語料庫的建置與檢索IV 英文詞性標記程式TagAn + AntConc。Google Colab程式。 
第9週
11/17  Regular Expressions。詞組與術語的擷取。AntConc,Cuda Text, NLTK, Spacy. 
第10週
11/24  平行語料庫的建置 (LF Aligner, AntPConc, CUC_ParaConc) 
第11週
12/01  1. Using Spacy for tagging English via Google Colab
https://tinyurl.com/m2vrw5kj
2. Using CKIP Word Segmentation Program and POS tagging via Google Colab
https://tinyurl.com/v45uc8uw

2020年台積電致股東書
https://tinyurl.com/2p888yym

A Letter to Shareholders from TSMC in 2020
https://tinyurl.com/bdzzfnhm




UNIX 指令實做(著重grep 指令如何檢索各種資料 
第12週
12/08  1. Using the CKIP library to segment traditional Chinese texts
https://tinyurl.com/3hp22265
2. Using grep and regular expressions to extract Chinese noun phrases from POS tagged Chinese texts
https://tinyurl.com/9exvcruu
3. Using Spacy for tagging simplified Chinese texts via Google Colab
https://tinyurl.com/yc4ufead

統計式機器翻譯與類神經機器翻譯的比較與實做 
第13週
12/15  Automatically Extracting and Translating Chinese Terminologies into English
https://tinyurl.com/2kv7khre
Automatically Extracting and Translating Chinese Terminologies into English
https://tinyurl.com/2kv7khre
Juxtapose Two Translations with English as the Source Language
https://tinyurl.com/2ykf6mpt

Juxtapose Two Translations with Chinese as the Source Language
https://tinyurl.com/dwj2rs48

https://tinyurl.com/2kv7khre

Using_Universal_Encoder_to_Search_Similar_English_Sentences_In_the_Text
https://tinyurl.com/bdz965p2

2015年台積電致股東書(in traditional Chinese)
https://tinyurl.com/22v7zebn

2015年台積電致股東書(simplified Chinese)
https://tinyurl.com/2p8f7crz

A Letter to Shareholders from TSMC in 2015
https://tinyurl.com/2p8tspj4



Invoking Google Translate
https://tinyurl.com/yu7jjfse
從平行語料庫擷取雙語詞彙﹑術語﹑及搭配語  
第14週
12/22  可比語料庫的建置與檢索

https://colab.research.google.com/drive/1hERt_jDBHUUPJYL7oq0VmYUWt2BncKmU

https://colab.research.google.com/drive/1zntqeEjQEJBajW8AQKBEo1Uzmmjj_sU7 
第15週
12/29  Review of Pre-editing, Post-editing, and EasyNMT

Pre-editing and Post-editing Strategies
https://www.youtube.com/watch?v=0X

EasyNMT
https://www.youtube.com/watch?v=H-gXfVbRNCA&t=5s 
第16週
2/6  參訪