◆ 闕志克/DeepSeek技術突破的含金量(初八)
◆ 李清志/哭著跨年(初七)
◆ 王文華/我的新年新希望:向前跌倒(初六)
闕志克/DeepSeek 技術突破的含金量
2025-02-05 04:49 聯合報/ 闕志克(作者為清華大學合聘教授)
一月二十日川普上任,DeepSeek 發表了 DeepSeek-R1,並宣稱其效能可媲美 OpenAI 最先進的大語言模型,而訓練成本則可壓到低於六百萬美元,約當其他公司的十分之一以下。隔一天,川普政府宣布投資額高達五千億美元、專為 AI 運算設計的超大型資料中心建置計畫,名為Stargate。一星期後,美國股市半導體相關股票包括台積電都慘遭血洗,輝達第一天損失的市值,就約當可口可樂、迪士尼和耐吉市值的總和。
DeepSeek 的橫空出世為什麼這麼震撼?首先,一個之前毫不見經傳、本業為量化金融交易的小公司在不到兩年間,就做出了性能名列前茅的大語言模型,打破了只有財大氣粗的公司才能研發大語言模型的迷思。其次,如果 DeepSeek 有關模型訓練資源的說法屬實,則建造像 Stargate 之類的超級資料中心是不是 AI 時代最迫切甚至最明智的投資,就很有待商榷。尤其近兩年來 AI 運算基礎設施的投資景況像極了兩千年初的網際網路泡沫,股市投資人現下對 AI 硬體股的縮手,正反映了這種潛藏的疑慮。
大多數研發大型語言模型的中國公司其實比其美國同業更擁護開源模式,DeepSeek 也不例外,甚至將關鍵技術寫成兩篇研究報告公開發表。那麼,DeepSeek 究竟發明了什麼必殺秘技,才掀起滔天波瀾?
大語言模型在訓練時,給定一個輸入單元及其相對應的輸出,經由梯度計算,動態調整語言模型上的權重;訓練最先進的語言模型通常需要超過一兆個以上的輸入單元。在推論時,給定一串輸入單元(如用戶的問題),透過語言模型的權重計算就能一個單元一個單元地產生輸出(如回應問題的答案)。
大型語言模型訓練和推理計算的主要效能瓶頸其實不是運算量太大,而是每處理一個輸入單元就需要將模型搬進搬出處理器一次所需的時間太長。專家協作(MOE)架構的理念是設計 N 個小專家模型使其能夠與總量體相當的單一大通才模型有相同的能力,但處理每個單元只需存取其中幾個小模型,藉以減少記憶體存取量。這個想法不算創新,法國的大語言模型公司 Mistral 就是使用 MOE 架構。然而,如何盡量加大 N 而不破壞語言模型訓練的穩定性仍是待解決的挑戰。Mistral 約只能將動態模型存取量降低三倍左右,DeepSeek 最重要的突破是它能夠做到十八倍:DeepSeek-V3 總共含六,七一○億個參數,但處理每個單元所需要的參數量卻只有三七○億。
DeepSeek 還發明了一種可以大幅縮小訓練時中間計算結果的壓縮方案,以及在推論時可以產出多個輸出單元的預測機制,更有效地攤銷掉模型存取所造成的效能損失。至於 DeepSeek 為增強推理能力所用的強化學習策略,以及製作等效模型的知識蒸餾手法,在業界都很常見。
雖然 DeepSeek 的技術突破並非一騎絕塵,但它帶出的產業意涵卻很深遠。其一,美國在 AI 領先中國的幅度不會超過十二個月,而且不像台積電在半導體製程的領先,這個差距縮小的速度只會愈來愈快。再來,現在與其說是 AI 的史普尼克時刻,不如說是 AI 的安卓時刻,因為安卓作業系統的出現造成了中國智慧手機業的百花齊放,終成一方之霸。中國公司從 1 變 N 的量產擴張能力有可能在語言模型領域重現嗎?第三,DeepSeek 的技術勢將大幅降低語言模型訓練所需的運算資源,但這個演變預期將推升語言模型的總體訓練量及推論量,反而提高 AI 計算資源的整體需求。