當模型可以預測,但我們是否理解它在「判斷」什麼

前言:準確率之外的問題

在機器學習的發展歷程中,模型效能往往被視為最直觀、也最容易比較的指標。無論是分類準確率、回歸誤差,或各式競賽排行榜,皆強化了一種隱含假設:
只要模型預測得夠準,它就是「好的」。

然而,隨著模型被應用於醫療、金融、教育與公共決策等情境,另一個問題逐漸浮現——
當模型給出結果時,我們是否理解它依據的是什麼?

這正是「可解釋性(interpretability)」成為研究焦點的背景。

一、預測能力與理解能力並非等價

在技術實作上,提升預測效能與提升可解釋性,往往是兩條不同的路徑。

  • 高度複雜的模型(如深度神經網路、集成方法)
    通常能捕捉更細緻的資料關係,但其內部決策過程難以直接對人類說明。
  • 相對簡單或結構化的模型
    雖然效能可能略低,但其決策邏輯較容易被追蹤與分析。

因此,「模型能否預測」與「人是否能理解模型如何做出預測」,在本質上是兩個不同問題。

二、可解釋性究竟在解釋什麼?

在實務與研究中,「可解釋性」常被混用,但實際上至少包含數個層次:

  1. 特徵層級解釋
    嘗試回答「哪些輸入特徵對結果影響較大」。

  2. 決策過程解釋
    關注模型在特定樣本上,如何組合不同訊息形成最終輸出。

  3. 整體行為理解
    試圖理解模型在資料分佈改變、極端案例或噪聲下的反應模式。

這些解釋方式,並不一定彼此等價,也不保證能完全重建模型的內部機制。

三、為何「可解釋」本身並不容易定義

一個常被忽略的問題是:
解釋的對象是誰?

  • 對工程師而言,可解釋性可能意味著除錯、驗證與改進模型。
  • 對使用者或決策者而言,可解釋性則關乎信任、責任與可辯護性。
  • 對研究者而言,可解釋性可能只是理解模型行為的工具,而非最終目的。

因此,可解釋性並非單一技術指標,而是一種依賴使用情境的需求。

四、後處理解釋的侷限性

目前常見的可解釋方法,多屬於「後處理分析」——
即在模型訓練完成後,再嘗試對其輸出行為進行說明。

這類方法雖然實用,但仍存在幾項限制:

  • 解釋結果往往是近似或局部性的
  • 不一定反映模型真正的內部運算結構
  • 不同解釋方法之間,可能對同一模型給出不同結論

因此,解釋本身也需要被審慎看待,而非視為模型「透明化」的保證。

五、理解模型,並不等於為模型背書

最後需要釐清的是:
提升可解釋性,並不意味著模型的決策就必然合理或正確。

可解釋性更接近於一種理解工具,而非價值判定機制。
它幫助我們看見模型如何運作,但不替我們做出是否採用、如何使用的判斷。

結語:從效能導向走向理解導向

隨著模型能力持續提升,單純以預測表現作為唯一評價標準,已逐漸顯得不足。

可解釋性所提出的問題,並不是要否定高效能模型的價值,而是提醒我們:
在模型開始影響現實決策之前,理解其行為方式本身,就是一項必要的技術與研究工作。

這並非要求所有模型都完全透明,而是要求我們清楚知道——
在什麼情境下,我們選擇接受「不完全理解」的代價。

當模型可以預測,但我們是否理解它在「判斷」什麼 · 南宮柳信|柳白