期:2022.11.17

主講人:陳縕儂教授

  題:我們距離鋼鐵人的生活還有多遠

  輯:李敏萱

  稿:蔡元豪、蘇郁秦

 陳縕儂01

一、 關於未來生活的想像

我過去這些跌跌撞撞的經驗分享,或許能對你們現在的狀態有一點點幫助,或者至少可以讓你們去思考:在大學這四年中間,你要如何調適自己的道路,以及未來該追求什麼樣的目標。

在正式進入心路歷程之前,我要先介紹一下我的研究主題。我的研究範疇是與人工智慧(AI)相關的,更精確一點說,我做的是「對話式人工智慧」(Conversational AI),大家可以直接把它想像成電影《鋼鐵人》裡的智慧管家——賈維斯(Jarvis)。

二、 機器學習的本質:從函式說起

我的研究領域是針對「對話情境」的AI,就像《鋼鐵人》裡的Jarvis,東尼·史塔克一回到家就可以跟它說:「幫我開燈」,或者發現敵人時說:「幫我肉搜對方的背景資料」,Jarvis都能聽懂並執行,許多電影都有類似的概念,這讓我們可以去思考未來生活的樣貌——希望每個人都能擁有專屬的智慧助理,你只需要「出一張嘴」,它就能幫你完成所有事。

大家可能會覺得「出一張嘴」是最簡單的事情,所以如果執行的部分都能交給機器,那該有多好,而要實現這件事,我們必須利用「機器學習」技術。那什麼是機器學習?大家可能覺得就是跟寫程式有關,沒錯,實際上寫程式是你命令電腦去做動作,但傳統程式只會依照指令一行一行執行,電腦本身不會憑空學到你沒交待的事,它不會有意識,更不會想要取代人類,它只是一個忠實執行指令的工具。

然而,有些任務對人類來說很簡單,對傳統程式卻很難。舉例來說,如果我給你一個簡單的任務:判斷產品評論是正評還是負評,有人會說「我超愛這產品」,有人則說「廣告太誇張了」,人類一眼就能判斷,但如果要寫進程式來判斷,該怎麼做?

你可能會想:找正面詞彙嘛!比如看到"like""love"就是正評;看到"fake""too much"就是負評,但馬上就會有反例,像是"It is not bad",雖然有"bad",但它是正評,你可能會想說「負負得正」,那如果是 "It is not good, so I think it is bad" 呢?這又是負評。你發現你沒辦法列出所有的規則,甚至沒辦法統整大腦到底是怎麼邏輯化地做判斷的,雖然大腦很快能給出答案,但我們無法精確寫出對應的if-else指令。

這時候,我們就要用機器學習的概念——也就是學習一個「函式」(Function)。

大家剛過高中,對f(x)應該很熟悉,當x=1f(x) =1;當x=2f(x) =4;當x=3f(x) =9,你腦中會自動猜測f(x)=x2,機器學習也是如此:輸入(x)是產品評論,輸出(f(x))是正評或負評。我們給機器大量的資料(Data),包含評論以及人類標記好的答案(Label),讓機器自己從這些大量的xf(x)中,找出那個最可能的函式長什麼樣子,這就是從資料中學習。

這種技術可以應用在很多地方:語音辨識的x是聲音,f(x)是文字;手寫辨識的x是圖片,f(x)是數字;甚至預測天氣或玩電玩,只要有大量的畫面輸入與對應的操作輸出,我們就能訓練出一個玩得跟高手一樣好的機器。

三、 深度學習與類神經網路

有了基本概念後,我們來聊聊「深度學習」(Deep Learning),如果把機器學習看成一個大圓,深度學習就是其中的一小塊,它的核心概念是:我們要學的那個複雜函式,是由無數個「小函式」組合而成的,就像如果一個小函式是二次方,疊三層可能就能模擬出六次方的能力。

深度學習有一個好處叫做「端對端訓練」(End-to-end training),意思是我們只需要把起點的輸入跟終點的輸出給它,中間那幾層小函式的參數它會自動全部一起學起來,不需要人手動去調整中間的細節。

深度學習更正式的名字叫「類神經網路」(Neural Network),顧名思義,它的設計靈感來自於模擬人類大腦的神經元結構,人腦是由神經元與其間的資訊傳遞、連接所構成的,在機器裡面,我們用圓圈代表神經元,用邊代表連結。

一個神經元做的事很簡單:接收前面傳來的數值,各自乘上權重(Weight,w),加總後再加上一個偏壓(Bias,b),最後通過一個「啟動函式」(Activation Function),這個函式通常是非線性的,比如把數值壓縮到01之間,雖然這聽起來像微積分一樣複雜,但概念上就是透過控制這些 wb的值,來決定輸出的結果。

當我們把數百萬個這樣的小函式疊在一起,就像生產線一樣,就能模擬出極其複雜的大腦判斷過程。

四、 AI的進化:為什麼是現在?

其實深度學習的技術早在1960年代就有了,但直到2010年後才有重大突破,原因有三個:

  1. 大數據(Big Data):以前資料不夠,無法精確學出函式,資料越多,機器學得越準。
  2. 硬體算力(Hardware):以前算一個好的函式可能要耗費好幾年,現在有了強大的GPU算力,我們才能在合理時間內處理大量資料。
  3. 演算法的設計:我們需要優秀的機器學習研究者去設計適合各種問題的網路架構。

這三個條件缺一不可,這才造就了現在AI的爆炸性成長。

陳縕儂02

五、 對話式AI的複雜系統

現在行動裝置普及,螢幕越來越小(比如智慧手錶),打字變得不方便,所以「出一張嘴」透過語音互動,是最自然、門檻最低的方式。

理想的聊天機器人(Bot)應該是以「使用者為中心」,傳統App你要自己去找功能選單,但Bot 就像你跟真人預約美髮一樣,你直接說「我想星期六剪頭」,它就會幫你處理好。

但這背後的系統非常複雜,通常包含以下環節:

  1. 語音辨識(ASR):把聲音轉成文字。
  2. 自然語言理解(NLU):機器要看懂文字背後的意圖。
  3. 對話狀態追蹤(State Tracking):記住前後文,例如你先說「訂五星飯店」,下一句說「要三人房」,機器要能結合這兩資訊。
  4. 回應策略(Policy):決定怎麼回,是要直接丟飯店清單?還是因為沒說地點,要反問「想住哪個城市」,來縮小搜尋範圍?
  5. 自然語言生成與合成(NLG/TTS):把機器的決定轉回人類聽得懂的語言與聲音。

我們現在正努力讓每一塊都由機器自己學,而不是人工設定,我們甚至會用一個「假的 User」來跟機器人互練,讓它在不斷的對話中學習如何更有效地達成任務。

六、 前沿挑戰:同理心與常識

目前這個領域還有很多挑戰。

首先是「語音辨識錯誤」的連帶影響,如果Siri聽錯一個字,後面就全毀了,我曾看過一個例子,有人說「台灣新增肺炎案例」,語音辨識卻變成「台灣行政機關廢言案例」,雖然「肺炎」跟「廢言」讀音很像,辨識器錯得「很有尊嚴」,但對機器理解來說卻是災難,我們正嘗試讓機器「長出耳朵」,讓它在看文字的同時也能思考讀音的相似性,像人類一樣具備容錯能力。

另一個挑戰是「跨領域處理」,我們希望機器能從處理單一主題(訂餐),進化到全能的助手(像Jarvis),現在很多資訊散落在沒結構的文件(如說明書、Email)中,我們希望機器能直接讀完這些手冊,變身為該領域的專家,以Q&A的形式回答使用者的問題。

最後,也是最難的,是「常識」(Common Sense)與「同理心」(Empathy)。

人類知道「找餐廳、查地圖、傳訊息」可能都是為了「跟朋友吃午餐」這一件事,但對機器來說,這些步驟的連接並不直覺。

至於同理心,目前的機器人通常很冷漠,如果你說「我車子被撞了」,機器可能只會回「所以你要找新工作嗎?」這對使用者來說是很受傷的,我們正嘗試在資料中加入具有同理心的回應,讓機器學會如何安慰人。

七、 給醫療領域學生的建議

我曾帶過一位醫學系雙修資工系的學生,他發現醫生在做臨床決策(Decision Making)時,除了課本知識,很大一部分來自於「個人經驗」與「文獻閱讀」(如 RCT隨機對照試驗報告)。

但是RCT報告非常多,醫生沒辦法全部讀完,我們就做了一個小計畫:讓AI去讀大量的RCT報告,自動生成結論與系統性回顧(Systematic Review),輔助醫生快速掌握某種疫苗或藥物的成效,這就是AI在跨領域結合上的絕佳例子。

陳縕儂05陳縕儂03

八、 從厭惡研究到熱愛研究

講完了專業內容,我想分享一下我的故事。大家可能以為我從小就很有想法、一路順遂,但其實不是。

  1. 那些滴滴管的無聊日子:

我在國中唸資優班時就得做科展,當時我完全不知道什麼是研究,後來我和朋友決定做化學科展,老師給了我們一個題目,要我們每天滴液體、觀察反應,我當時覺得這簡直無聊透頂,一點興趣也沒有。

到了高中,又要再做科展,我因為很懶,不想去實驗室「滴滴管」,就選了資訊專研,想說只要對著電腦就好,但當時我也不太會寫程式,整整一年渾渾噩噩,什麼也沒做出來,高二時我換成數學專研,想說數學至少不用滴滴管,只要證明跟計算就好。

高中結束後,雖然有一些成果,但我心裡想的是:「我這輩子絕對不要做研究,研究真的太無聊了!」當時的我,完全沒想到自己未來會拿到博士學位,甚至把研究當成終生職志。

  1. 叛逆與好奇心的覺醒:

後來考上資工系,我覺得很幸運,我在高中時也不知道自己適合什麼,只是刪掉不喜歡的,剩下覺得數理還行就選了,上了資工系後,我發現裡面的課程非常有趣,那是我第一次感覺到學習不是為了應付考試。

大四那年,我進入了語音AI實驗室,當時AI非常冷門,實驗室的學長甚至勸我:「這領域已經卡住很久了,沒前途,快換一個吧。」但我這個人比較叛逆,我覺得電影裡的Jarvis很酷,就算現在不紅,未來總有一天會成真,我就這樣堅持了下來。

我也發現,為什麼我以前討厭研究?因為以前的科展題目是老師給的,我只是被動執行。但真正的研究應該源自於「好奇心」。我是一個愛問「為什麼」的學生,老師教一個知識,我會問:「為什麼是這個?那個不行嗎?」問到老師覺得我很煩,但我就是想知道原因,當我開始能自己設計實驗去釐清疑惑時,我才發現研究的樂趣,如果你在求學過程中常有疑惑,且不釐清就無法接受,那你其實非常適合做研究。

九、 選擇你的道路:做獨一無二的自己

我在碩士快畢業時,才決定要申請博士,算是很晚才訂目標,我當時想:即便業界沒機會,如果能留在學界當研究員,我就可以繼續做我喜歡的冷門研究。

我常建議學生:「目標可以早點思考,但不需要定死」,你可以先有一個大致的方向,這能幫助你在做選擇時更靠近目標,但目標隨時可以變動。

另外,我想強調「不要隨波逐流」,很多人選實驗室、選公司是看誰薪水高、看朋友去哪,但我當時就是想選我有興趣的,即便沒加分也沒關係。

在國外唸書時,我也看到很多不同的文化,比如女生在理工領域是少數,在微軟實習時,整隊只有兩個女生。身為少數,我們更應該努力讓環境變得友善,而不是因為周圍的朋友都去唸商科、文科,就懷疑自己的選擇,我的小姑數學很好卻因為同儕壓力去選文組,現在極度後悔,所以,請務必做獨一無二的自己。

最後,我想說,找工作不只是看薪水,如果你在國外賺很多錢卻過得不快樂,那是本末倒置,我選擇回台灣教書,雖然錢少很多,但跟學生互動、帶領團隊讓我感到非常幸福。

希望大家都能找到自己充滿熱情的目標,並勇敢地走下去。

Q&A

問:「老師提到現在講求跨域結合,對於我們人文社會領域背景的學生,AI 可以在哪些地方發揮作用?」

答:「其實有很多例子,例如在教育領域,有研究者利用AI分析美國線上學習平台上的學生互動,他們想驗證一個假設:在互動過程中,是否會自然形成某些「Leader」群體?AI可以自動分析誰說的話得到了支持、誰形成了小圈子。

AI就像是一個強大的工具,人文領域原本就有許多深刻的議題與想法,過去可能缺乏大數據分析的工具,現在AI可以輔助專家快速處理大量資訊,關鍵在於特定領域的專家(如你們)提出問題,再利用AI來達成目標。」

問:「Meta最近公佈了英文與台語互相轉換的影片,請問其背後的模式與未來前景?另外,現在 AI可以生成文案甚至畫圖得到第一名,我們該如何看待這對創作的衝擊?」

答:「關於Meta的技術,這叫語音翻譯(Speech Translation),過去的做法是先轉成文字(英文 ASR),翻譯成中文文字,再變成台語聲音,但台語缺乏通用的書寫系統(台文),資料極少,Meta 嘗試直接做聲音對聲音的翻譯,這在沒有書寫系統的語言情境下非常便利,雖然目前效果可能不如文字翻譯精確,但它開創了新的可能性。

關於生成式AIGenerative AI),我認為它目前是「節省時間的工具」而非「取代創意」,AI是透過過去人類的詞彙組合來生成草稿,如果你有獨特的創意,AI無法直接產生。

至於繪畫比賽第一名,那位藝術家其實重複調整了幾百次關鍵字,他腦中先有了畫面,才利用AI幫他畫出來,AI讓「有創意但不會畫畫的人」也能創作,最終的概念仍需由人來決定。如果你只會畫畫但沒創意,確實可能被淘汰,但如果你有靈魂、有想法,AI只會讓你更強大。」

問:「老師在國外求學期間,收穫最大或印象最深的事是什麼?」

答:「有兩個層面:

1.  語言:在那個環境下,英文自然會突飛猛進。

2.  文化交流與人的連結:在台灣接觸外籍生的機會相對少,但在國外,你可以認識不同文化的人。比如我認識了很多韓國朋友,了解他們畢業後擠進三星、LG的壓力;也認識了印度朋友,了解他們國家的生活現況。這種對人歷練的豐富度,以及與不同國家朋友建立的連結,我覺得對未來的人格養成與歷練非常有幫助,這種收穫是成績單上看不到的。」

陳縕儂04

Go to top