◆ 方元沂/社會創新3.0下一步:制度化
◆ 黃正忠/應用AI的最大隱憂
◆ 杜紫宸/當AI協助犯罪 誰該負責?
◆ 李清志/上帝手中的大提琴
◆ 黃齊元/五年後 想像兩岸和解場景
◆ 詹文男/當AI假裝愛上你
闕志克/當 AI 發展從訓練轉向推論
2026-03-29 00:00 聯合報/ 闕志克(作者為清華大學合聘教授)
黃仁勳稱自主AI應用將成為未來個人用戶的作業系統。路透 路透社
三月中的 GTC 大會上,輝達執行長黃仁勳指出 AI 資料中心的工作負載正經歷重大轉折:由於近一年自主人工智慧應用興起,AI 資料中心的工作負載逐漸從訓練大型語言模型轉向模型推論,這對未來 AI 資料中心的設計將有巨大影響。
自主 AI 應用最重要的特徵是能自主制定計畫達成用戶指定的任務,而這種規畫能力通常源於自主 AI 應用背後的大語言模型。在為給定任務產出解決方案時,大語言模型首先推理探索各種可能,進而提出完成任務所需的逐步計畫。
目前普遍公認能力最出色的自主 AI 應用是 Anthropic 公司的 Claude Code,它背後的大語言模型是 Claude。 Claude Code 最初的設計理念是讓軟體開發者使用自然語言描述意欲創出軟體的規格,然後自動化所有相關軟體開發流程,包括程式碼產生、程式碼測試和程式碼部署。本來 Anthropic 只將此工具用於內部軟體開發,但去年五月作為商業產品推出後大受歡迎。如今,Anthropic 宣稱該公司的程式碼至少百分之九十都是透過 Claude Code 產生,很多美國軟體新創也有類似的體驗。
Claude Code 並不限於軟體開發,也支援各種資訊收集、分析、比較和合成的任務,因此現在法律、金融、會計、審計、行銷和諮詢等領域廣泛使用。Claude Code 的崛起催生開源版本 OpenClaw(養龍蝦)的開發。藉由與 WhatsApp 和 Line 等即時通訊工具的集成,OpenClaw 讓一般用戶能自動執行諸如閱讀/撰寫電子郵件、訪問和分析網頁、安排會議、規畫行程或活動等日常任務,因此成為將自主 AI 應用推向主流的重大動力,黃仁勳甚至聲稱,自主 AI 應用將成為未來個人用戶的作業系統。
每次自主 AI 應用想產出規畫,就需向背後的大語言模型送出推論請求。大語言模型的推論請求只需正向存取模型一次,但訓練請求則需許多回合的正向和反向模型存取。處理一個推論請求所需的通訊頻寬,比處理相同大語言模型的訓練請求一回合所需的頻寬至少小十倍。因此,當 AI 資料中心的工作負載主要由推論請求組成時,系統優化的策略是將大語言模型及其上下文盡可能縮小,然後將每筆推論請求所需的 GPU 數量降到最低,從而極大化一個 GPU 池在單位時間內所能處理的推論請求數。
這意味未來 AI 資料中心的焦點將不再是能支援高速訓練的大型 GPU 叢集,而是能同時服務大量推論請求的多個小型 GPU 叢集。換句話說,雖然資料中心的 GPU 總數可能會持續成長,但單一叢集裡的 GPU 數量將減少。雖然輝達的 GPU 連結技術過去幾年一直是關鍵的護城河,但隨著 AI 工作負載漸以推論請求為主,其重要性可能會降低。也就是說,提升 GPU 之間網路連線的通訊頻寬或叢集的規模,變得不再那麼迫切,這或許可解釋為什麼輝達宣布在機架內網路將繼續使用銅線傳輸,僅在機架間的擴展網路才採用光纖傳輸技術。
當單一 GPU 可使用的記憶體增加,處理單筆推論請求所需的 GPU 數量就可相應減少。目前,處理最先進大語言模型的推論請求大約需六○○GB 的記憶體,而目前最尖端的 GPU 可直接存取的記憶體容量約為三○○GB。因此,當此 GPU 記憶體容量翻倍時,處理單筆推論請求只需要一個 GPU 即可,屆時 GPU 間高速連結的重要性預期將進一步降低。