益智遊戲與自然語言處理

前幾天完整看了 IBM Watson 在益智遊戲節目 Jeopardy! 上的三場競技。

第一次知道美國這個電視節目，是在 Douglas Coupland 的小說 Microserfs 裡讀來的。那本小說出版於微軟聲勢如日中天、第一次瀏覽器戰爭還未全面開打的 1995 年。故事開始，主人公介紹他在微軟工作的同事：「如果要用 Jeopardy! 的問題分類來形容這個人的話，那會是......」。

IBM Watson 最後擊敗 Jeopardy! 史上表現最傑出的兩位參賽者，IBM 也利用三天節目做了成功的公關，熱鬧程度不下當年 Deep Blue 打敗棋王 Kasparov。事實上，節目今年一月就已經在 IBM 研究中心錄製完畢，所有參與的工作人員，包括 Jeopardy! 節目製作小組跟參與錄影的 IBM 員工，先前就已經知道結果（顯然都簽了嚴格的保密協議）。這些並不減損觀看節目的趣味：第二天比賽末尾，在「美國城市」分類，被問到「這個城市的第一大機場是以一位二戰英雄命名，第二大以一場二戰戰役命名」時，Watson 最後給的答案是: "What is Toronto?????" ¹。果不其然網路上的反應跟主持人 Alex Trebek 在第三天節目開頭的說法一樣：「我現在才知道原來多倫多是美國的城市啊！」

對於 IBM Watson 的架構、為什麼挑選益智遊戲節目作為挑戰、節目的格式與特殊處，以及 Watson 需要克服的問題，最完整的描述，應該還是計畫主持人在 AI Magazine 2010 秋季號中所撰寫的 paper ² （全文網路上不難找到）。問答系統 (question and answering system; QA) 在執行層面上的本質是個搜尋問題，但就如 David Ferrucci 的 paper 開頭講到，Google 的關鍵字搜尋依靠的是文章在關鍵字的關聯度，這對於許多非開放 web 領域的資料（例如企業內部文件、法律資料、醫學文件）並不適用。就以 Jeopardy! 的問答分類來說，因為題型呈長尾分布，使得靠關鍵字分類的作法完全派不上用場。同時，要能應付 Jeopardy! 各種充滿隱喻與用典的提示，就必須有相當精準的自然語言分析與理解能力，才可能建立正確的假設（要找的是哪一個類型的題目）並且在初步搜尋後，尋找證據來支持搜尋結果。在這樣的系統中，提出證據支持為什麼搜尋結果是這樣，跟高正確率 (precision)、高捕捉率 (recall) 是一樣重要的。Ferrucci 文章中也有提到 Watson 用了哪些軟體工具，很多人都用過聽過的 Lucene 搜尋引擎以及 Hadoop 分散式資料處理架構名列其中，還有 Apache UIMA 等等。

很多年前台灣的公視有播過 BBC 一部名為 "The Dream Machine" 的紀錄片 (1992)，該系列的前半講的是人工智慧的發展與限制，後半則講述人機互動當時的發展。多年後《紐約時報》再次把 John McCarthy 跟 Douglas Engelbart 兩人不同的研究方向放在一起討論，突然理解 BBC 紀錄片當時這樣分配節目的緣由可能是什麼，彷彿這是一個永恆（？）主題的兩條軸線：「發展像人類一般的智能」與「協助人類發展更好的智能」。Watson 或許算是往前者推進一步的表現，但更有意義的是如同《紐時》文章結尾引用的：作為人類重要的是提出問題。

任何稍微需要處理自然語言的軟體開發者，哪怕只是做像搜尋關鍵字過濾轉換、設定資料庫全文搜尋 stop words 這類基礎工作，大概都能體會人類語言，不論語種，真的是無比複雜。而即使複雜的 QA 系統能針對輸入的問題得到比先前更為精準的答案，這系統應該仍然不能被稱為具有思考的能力吧（這個哲學問題 Ferrucci 在這場座談會中有簡單提到）。Watson 絕對是（英語）自然語言處理界的一個重大里程碑，甚至科普節目 NOVA 還希望透過媒體的播放，Jeopardy! 能夠（像當年人類登月吸引人跑去念相關科系那般？）吸引更多人去投入機器學習的領域。

不管怎麼說，看了三天節目，還是必須要說，這是了不起的科學力啊。

以下是連結摘要：

三天競賽的錄影: Jeopardy! The IBM Challenge. Day 1 (1 2), Day 2 (1 2), Day 3 (1 2).
IBM Watson 官網
這篇 IBM blog 提到了 Watson 的架構。
Jeopardy! 賽後座談會，是在節目播出後才舉辦的。
IBM 自家的賽後紀錄片 "Final Jeopardy! and the Future of Watson" （事實上 IBM 自家的一系列 Watson 紀實都相當可看）。
《紐約時報》的文章: Maroff, John. "A Fight to Win the Future: Computers vs. Humans". New York Times. February 14, 2011.
PBS NOVA "Smartest Machine on Earth" 有提到早期自然語言處理領域，靠羅列建構知識與邏輯關係，遇到了哪些限制，以及後來為何統計方法與機器學習帶來這個領域的進步。事實上，片中提到的 CYC 計畫，BBC 1992 年的紀錄片就報導過了……。影片要透過 VPN 或其他方式才能在台灣看到。
《經濟學人》記者 blog 的這篇文章很有意思，雖然沒有直接針對 NOVA 節目中的期許而來，但是從美國媒體對 Watson 的評論，來分析今日當前的美國反智文化。政治文。
國際大事一定要有的動新聞報導，內容有個大錯誤：Watson 並沒有做語音辨識。看在片尾有梗的份上還是列上來了。
是的，Watson avatar 上面有 42 條線……

Jeopardy! 的問答格式跟一般的益智遊戲問答不同，一般講問題在節目中叫提示 (hint)，參賽者則必須用問題的形式來回答，例如如果提示「這個語言是由 AI 一詞發明人所設計的」，回答則需要說 "What is Lisp?" 。在第二天競賽中，Watson 答案後面加了五個問號，表示根據計算，這個答案的信心水準很低。又，該題正確答案是 "What is Chicago?" （芝加哥第一大機場為 O'Hare，第二大則是 Midway）。 ↩
Ferrucci et al. 2010. "Building Watson: An Overview of the DeepQA Project". AI Magazine. Fall 2010. 59-79. ↩