高雄醫學大學高醫書院 - 我們距離鋼鐵人的生活還有多遠

日期：2022.11.17

主講人：陳縕儂教授

講題：我們距離鋼鐵人的生活還有多遠

編輯：李敏萱

校稿：蔡元豪、蘇郁秦

陳縕儂01

一、　關於未來生活的想像

我過去這些跌跌撞撞的經驗分享，或許能對你們現在的狀態有一點點幫助，或者至少可以讓你們去思考：在大學這四年中間，你要如何調適自己的道路，以及未來該追求什麼樣的目標。

在正式進入心路歷程之前，我要先介紹一下我的研究主題。我的研究範疇是與人工智慧（AI）相關的，更精確一點說，我做的是「對話式人工智慧」（Conversational AI），大家可以直接把它想像成電影《鋼鐵人》裡的智慧管家——賈維斯（Jarvis）。

二、　機器學習的本質：從函式說起

我的研究領域是針對「對話情境」的AI，就像《鋼鐵人》裡的Jarvis，東尼·史塔克一回到家就可以跟它說：「幫我開燈」，或者發現敵人時說：「幫我肉搜對方的背景資料」，Jarvis都能聽懂並執行，許多電影都有類似的概念，這讓我們可以去思考未來生活的樣貌——希望每個人都能擁有專屬的智慧助理，你只需要「出一張嘴」，它就能幫你完成所有事。

大家可能會覺得「出一張嘴」是最簡單的事情，所以如果執行的部分都能交給機器，那該有多好，而要實現這件事，我們必須利用「機器學習」技術。那什麼是機器學習？大家可能覺得就是跟寫程式有關，沒錯，實際上寫程式是你命令電腦去做動作，但傳統程式只會依照指令一行一行執行，電腦本身不會憑空學到你沒交待的事，它不會有意識，更不會想要取代人類，它只是一個忠實執行指令的工具。

然而，有些任務對人類來說很簡單，對傳統程式卻很難。舉例來說，如果我給你一個簡單的任務：判斷產品評論是正評還是負評，有人會說「我超愛這產品」，有人則說「廣告太誇張了」，人類一眼就能判斷，但如果要寫進程式來判斷，該怎麼做？

你可能會想：找正面詞彙嘛！比如看到"like"、"love"就是正評；看到"fake"、"too much"就是負評，但馬上就會有反例，像是"It is not bad"，雖然有"bad"，但它是正評，你可能會想說「負負得正」，那如果是 "It is not good, so I think it is bad" 呢？這又是負評。你發現你沒辦法列出所有的規則，甚至沒辦法統整大腦到底是怎麼邏輯化地做判斷的，雖然大腦很快能給出答案，但我們無法精確寫出對應的if-else指令。

這時候，我們就要用機器學習的概念——也就是學習一個「函式」（Function）。

大家剛過高中，對f(x)應該很熟悉，當x=1，f(x) =1；當x=2，f(x) =4；當x=3，f(x) =9，你腦中會自動猜測f(x)=x²，機器學習也是如此：輸入（x）是產品評論，輸出（f(x)）是正評或負評。我們給機器大量的資料（Data），包含評論以及人類標記好的答案（Label），讓機器自己從這些大量的x與f(x)中，找出那個最可能的函式長什麼樣子，這就是從資料中學習。

這種技術可以應用在很多地方：語音辨識的x是聲音，f(x)是文字；手寫辨識的x是圖片，f(x)是數字；甚至預測天氣或玩電玩，只要有大量的畫面輸入與對應的操作輸出，我們就能訓練出一個玩得跟高手一樣好的機器。

三、　深度學習與類神經網路

有了基本概念後，我們來聊聊「深度學習」（Deep Learning），如果把機器學習看成一個大圓，深度學習就是其中的一小塊，它的核心概念是：我們要學的那個複雜函式，是由無數個「小函式」組合而成的，就像如果一個小函式是二次方，疊三層可能就能模擬出六次方的能力。

深度學習有一個好處叫做「端對端訓練」（End-to-end training），意思是我們只需要把起點的輸入跟終點的輸出給它，中間那幾層小函式的參數它會自動全部一起學起來，不需要人手動去調整中間的細節。

深度學習更正式的名字叫「類神經網路」（Neural Network），顧名思義，它的設計靈感來自於模擬人類大腦的神經元結構，人腦是由神經元與其間的資訊傳遞、連接所構成的，在機器裡面，我們用圓圈代表神經元，用邊代表連結。

一個神經元做的事很簡單：接收前面傳來的數值，各自乘上權重（Weight,w），加總後再加上一個偏壓（Bias,b），最後通過一個「啟動函式」（Activation Function），這個函式通常是非線性的，比如把數值壓縮到0到1之間，雖然這聽起來像微積分一樣複雜，但概念上就是透過控制這些 w與b的值，來決定輸出的結果。

當我們把數百萬個這樣的小函式疊在一起，就像生產線一樣，就能模擬出極其複雜的大腦判斷過程。

四、　AI的進化：為什麼是現在？

其實深度學習的技術早在1960年代就有了，但直到2010年後才有重大突破，原因有三個：

大數據（Big Data）：以前資料不夠，無法精確學出函式，資料越多，機器學得越準。
硬體算力（Hardware）：以前算一個好的函式可能要耗費好幾年，現在有了強大的GPU算力，我們才能在合理時間內處理大量資料。
演算法的設計：我們需要優秀的機器學習研究者去設計適合各種問題的網路架構。

這三個條件缺一不可，這才造就了現在AI的爆炸性成長。

陳縕儂02

五、　對話式AI的複雜系統

現在行動裝置普及，螢幕越來越小（比如智慧手錶），打字變得不方便，所以「出一張嘴」透過語音互動，是最自然、門檻最低的方式。

理想的聊天機器人（Bot）應該是以「使用者為中心」，傳統App你要自己去找功能選單，但Bot 就像你跟真人預約美髮一樣，你直接說「我想星期六剪頭」，它就會幫你處理好。

但這背後的系統非常複雜，通常包含以下環節：

語音辨識（ASR）：把聲音轉成文字。
自然語言理解（NLU）：機器要看懂文字背後的意圖。
對話狀態追蹤（State Tracking）：記住前後文，例如你先說「訂五星飯店」，下一句說「要三人房」，機器要能結合這兩資訊。
回應策略（Policy）：決定怎麼回，是要直接丟飯店清單？還是因為沒說地點，要反問「想住哪個城市」，來縮小搜尋範圍?
自然語言生成與合成（NLG/TTS）：把機器的決定轉回人類聽得懂的語言與聲音。

我們現在正努力讓每一塊都由機器自己學，而不是人工設定，我們甚至會用一個「假的 User」來跟機器人互練，讓它在不斷的對話中學習如何更有效地達成任務。

六、　前沿挑戰：同理心與常識

目前這個領域還有很多挑戰。

首先是「語音辨識錯誤」的連帶影響，如果Siri聽錯一個字，後面就全毀了，我曾看過一個例子，有人說「台灣新增肺炎案例」，語音辨識卻變成「台灣行政機關廢言案例」，雖然「肺炎」跟「廢言」讀音很像，辨識器錯得「很有尊嚴」，但對機器理解來說卻是災難，我們正嘗試讓機器「長出耳朵」，讓它在看文字的同時也能思考讀音的相似性，像人類一樣具備容錯能力。

另一個挑戰是「跨領域處理」，我們希望機器能從處理單一主題（訂餐），進化到全能的助手（像Jarvis），現在很多資訊散落在沒結構的文件（如說明書、Email）中，我們希望機器能直接讀完這些手冊，變身為該領域的專家，以Q&A的形式回答使用者的問題。

最後，也是最難的，是「常識」（Common Sense）與「同理心」（Empathy）。

人類知道「找餐廳、查地圖、傳訊息」可能都是為了「跟朋友吃午餐」這一件事，但對機器來說，這些步驟的連接並不直覺。

至於同理心，目前的機器人通常很冷漠，如果你說「我車子被撞了」，機器可能只會回「所以你要找新工作嗎？」這對使用者來說是很受傷的，我們正嘗試在資料中加入具有同理心的回應，讓機器學會如何安慰人。

七、　給醫療領域學生的建議

我曾帶過一位醫學系雙修資工系的學生，他發現醫生在做臨床決策（Decision Making）時，除了課本知識，很大一部分來自於「個人經驗」與「文獻閱讀」（如 RCT隨機對照試驗報告）。

但是RCT報告非常多，醫生沒辦法全部讀完，我們就做了一個小計畫：讓AI去讀大量的RCT報告，自動生成結論與系統性回顧（Systematic Review），輔助醫生快速掌握某種疫苗或藥物的成效，這就是AI在跨領域結合上的絕佳例子。

陳縕儂05 陳縕儂03

八、　從厭惡研究到熱愛研究

講完了專業內容，我想分享一下我的故事。大家可能以為我從小就很有想法、一路順遂，但其實不是。

那些滴滴管的無聊日子:

我在國中唸資優班時就得做科展，當時我完全不知道什麼是研究，後來我和朋友決定做化學科展，老師給了我們一個題目，要我們每天滴液體、觀察反應，我當時覺得這簡直無聊透頂，一點興趣也沒有。

到了高中，又要再做科展，我因為很懶，不想去實驗室「滴滴管」，就選了資訊專研，想說只要對著電腦就好，但當時我也不太會寫程式，整整一年渾渾噩噩，什麼也沒做出來，高二時我換成數學專研，想說數學至少不用滴滴管，只要證明跟計算就好。

高中結束後，雖然有一些成果，但我心裡想的是：「我這輩子絕對不要做研究，研究真的太無聊了！」當時的我，完全沒想到自己未來會拿到博士學位，甚至把研究當成終生職志。

叛逆與好奇心的覺醒:

後來考上資工系，我覺得很幸運，我在高中時也不知道自己適合什麼，只是刪掉不喜歡的，剩下覺得數理還行就選了，上了資工系後，我發現裡面的課程非常有趣，那是我第一次感覺到學習不是為了應付考試。

大四那年，我進入了語音AI實驗室，當時AI非常冷門，實驗室的學長甚至勸我：「這領域已經卡住很久了，沒前途，快換一個吧。」但我這個人比較叛逆，我覺得電影裡的Jarvis很酷，就算現在不紅，未來總有一天會成真，我就這樣堅持了下來。

我也發現，為什麼我以前討厭研究？因為以前的科展題目是老師給的，我只是被動執行。但真正的研究應該源自於「好奇心」。我是一個愛問「為什麼」的學生，老師教一個知識，我會問：「為什麼是這個？那個不行嗎？」問到老師覺得我很煩，但我就是想知道原因，當我開始能自己設計實驗去釐清疑惑時，我才發現研究的樂趣，如果你在求學過程中常有疑惑，且不釐清就無法接受，那你其實非常適合做研究。

九、選擇你的道路：做獨一無二的自己

我在碩士快畢業時，才決定要申請博士，算是很晚才訂目標，我當時想：即便業界沒機會，如果能留在學界當研究員，我就可以繼續做我喜歡的冷門研究。

我常建議學生：「目標可以早點思考，但不需要定死」，你可以先有一個大致的方向，這能幫助你在做選擇時更靠近目標，但目標隨時可以變動。

另外，我想強調「不要隨波逐流」，很多人選實驗室、選公司是看誰薪水高、看朋友去哪，但我當時就是想選我有興趣的，即便沒加分也沒關係。

在國外唸書時，我也看到很多不同的文化，比如女生在理工領域是少數，在微軟實習時，整隊只有兩個女生。身為少數，我們更應該努力讓環境變得友善，而不是因為周圍的朋友都去唸商科、文科，就懷疑自己的選擇，我的小姑數學很好卻因為同儕壓力去選文組，現在極度後悔，所以，請務必做獨一無二的自己。

最後，我想說，找工作不只是看薪水，如果你在國外賺很多錢卻過得不快樂，那是本末倒置，我選擇回台灣教書，雖然錢少很多，但跟學生互動、帶領團隊讓我感到非常幸福。

希望大家都能找到自己充滿熱情的目標，並勇敢地走下去。

Q&A

問：「老師提到現在講求跨域結合，對於我們人文社會領域背景的學生，AI 可以在哪些地方發揮作用？」

答：「其實有很多例子，例如在教育領域，有研究者利用AI分析美國線上學習平台上的學生互動，他們想驗證一個假設：在互動過程中，是否會自然形成某些「Leader」群體？AI可以自動分析誰說的話得到了支持、誰形成了小圈子。

AI就像是一個強大的工具，人文領域原本就有許多深刻的議題與想法，過去可能缺乏大數據分析的工具，現在AI可以輔助專家快速處理大量資訊，關鍵在於特定領域的專家（如你們）提出問題，再利用AI來達成目標。」

問：「Meta最近公佈了英文與台語互相轉換的影片，請問其背後的模式與未來前景？另外，現在 AI可以生成文案甚至畫圖得到第一名，我們該如何看待這對創作的衝擊？」

答：「關於Meta的技術，這叫語音翻譯（Speech Translation），過去的做法是先轉成文字（英文 ASR），翻譯成中文文字，再變成台語聲音，但台語缺乏通用的書寫系統（台文），資料極少，Meta 嘗試直接做聲音對聲音的翻譯，這在沒有書寫系統的語言情境下非常便利，雖然目前效果可能不如文字翻譯精確，但它開創了新的可能性。

關於生成式AI（Generative AI），我認為它目前是「節省時間的工具」而非「取代創意」，AI是透過過去人類的詞彙組合來生成草稿，如果你有獨特的創意，AI無法直接產生。

至於繪畫比賽第一名，那位藝術家其實重複調整了幾百次關鍵字，他腦中先有了畫面，才利用AI幫他畫出來，AI讓「有創意但不會畫畫的人」也能創作，最終的概念仍需由人來決定。如果你只會畫畫但沒創意，確實可能被淘汰，但如果你有靈魂、有想法，AI只會讓你更強大。」

問：「老師在國外求學期間，收穫最大或印象最深的事是什麼？」

答：「有兩個層面:

1. 語言：在那個環境下，英文自然會突飛猛進。

2. 文化交流與人的連結：在台灣接觸外籍生的機會相對少，但在國外，你可以認識不同文化的人。比如我認識了很多韓國朋友，了解他們畢業後擠進三星、LG的壓力；也認識了印度朋友，了解他們國家的生活現況。這種對人歷練的豐富度，以及與不同國家朋友建立的連結，我覺得對未來的人格養成與歷練非常有幫助，這種收穫是成績單上看不到的。」

陳縕儂04

高醫書院 Academy of Life

編輯

我們距離鋼鐵人的生活還有多遠