2024年8月11日星期日

闕志克／大語言模型逐漸走向專門化

名人堂電子報：http://paper.udn.com/papers.php?pname=PID0030&page=1#ph 　

◆ 　闕志克／大語言模型逐漸走向專門化

◆ 　薛承泰／新少子女化對策是「對」策嗎？

◆ 　林中斌／「一帶一路」美國輕忽續集已出

◆ 　盛治仁／不要有「死後洪水干我何事」心態

◆ 　陳冲／零散協議小兵或可建奇功

◆ 　李清志／夏日江之島電車漫遊

◆ 　陳立恆／有人文科技才有身為人的自由

闕志克／大語言模型逐漸走向專門化

2024-08-11 05:21 　聯合報／ 闕志克（作者為清華大學合聘教授）

蘋果公司上個月在年度開發者大會中，發表了整合生成式 AI 技術進手機應用的成果，名為 Apple Intelligence。這個創新，讓用戶能更流暢地用文字與他人溝通，並藉由圖像表達自己的意念和想法；讓語音助理 Siri 更深入地整合用戶各個生活層面的訊息，並且同時將保護用戶隱私放在首位。雖然外界原本期望很高，但 Apple Intelligence 發表後一般的評價為「不過爾爾」。這個結果其實意料之中，也非戰之罪，因為手機沒有足夠高效能記憶體，所以大語言模型很難有用武之地。

最先進的通用型大語言模型若要運算順暢，至少需要數百億個位元組，然而現今多數智慧型手機的記憶體總量大都低於一百億個位元組。為解決此問題，蘋果採取「分而治之」策略，將一個通用型大語言模型拆解成一個核心模型、多個針對特定領域和特定功能，或特定語言的專門模型，及一個分流器。核心模型只擁有處理基本自然語言的能力，程度如同母語基礎良好的高中畢業生。專門模型則深入擷取與學習某特定範疇內的術語、用詞、句法、概念、方法、事實和傳統，功力如長年浸淫、出色當行的學者專家。分流器則負責分析用戶的查詢，調用相對應的專門模型，與核心模型協作以產生最適切的回應。

基於以上的架構，蘋果將核心模型、分流器和常用的專門模型整合進手機內，但將大部分專門模型留在後端雲服務。針對特定查詢，如果分流器決定需要調用雲端上的專門模型時，它就會將該查詢與相關用戶資料送往雲端，等待回應。需要雲端處理的查詢當然較耗時，也引發資料隱私的疑慮，所以在推廣 Apple Intelligence 時，蘋果承諾任何提交到後端雲服務的用戶資料在使用後都會被銷毀。

「可堆疊語言模型」可以大幅減少語言模型訓練與推理時所需的計算量和記憶體需求。道理很簡單，假設一個一千億參數的通用語言模型，可拆解成一百個十億參數的專門語言模型，在訓練時，不但每個專門語言模型的訓練計算量急遽降低，而且這一百個模型更可以同時平行訓練；在推理時，每個推理動作因只需要這一百個專門模型中的一小部分，所以其總體運算開銷也將可望顯著縮減。

可堆疊語言模型的崛起，促使微軟、谷歌、臉書、蘋果等雲端巨頭和許多新創公司，在過去十二個月都紛紛投入小語言模型的研發，意圖開發針對特定用途、但參數量少得很多的專門語言模型。之前大語言模型的目標族群為一般大眾，所以需要具備百科全書般的知識，也因此運算資源的需求較龐大。相比之下，小語言模型可以針對特定應用客製，也較適合運用機敏資料作地端訓練，所以功能與資源使用率更高，資料保護度更強，對企業用戶也更有吸引力。

小語言模型的興起，對原來聚焦通用大語言模型、企圖爭取企業客戶的新創公司，如 OpenAI、Anthropic、Mistral 等將形成重大威脅，但也為其他圍繞著可堆疊語言模型架構生態圈去開發專門模型的新創公司，打開了一片藍海的商機。台灣在大語言模型的研發原本處於相對弱勢的地位，但專門化的小語言模型，如同針對特定應用客製的晶片一樣，將為台灣 AI 產業提供了一個能與外商一較高下，以滿足在地企業專門語言模型需求為商模的大好機會。

2024年8月11日 星期日