◆ 闕志克/大型語言模型商業模式的新挑戰
◆ 方祖涵/疫情後,重回救贖之地的人潮
◆ 盛治仁/政黨幫派化 政爭苦果全民吞
◆ 李清志/疫後台北書店觀察
◆ 楊志良/全民拒絕民主獨裁
◆ 陳冲/秦欲弱楚 莫若聯魏 真盟友乎
闕志克/大型語言模型商業模式的新挑戰
2023-10-07 02:40 聯合報/ 闕志克(作者為清華大學合聘教授)
ChatGPT將可以使用語音和音訊與付費用戶交談的能力。路透
ChatGPT 能以數十種語言有效回應主題五花八門、問法千奇百怪的問題,且回答大都文法正確、語意切題、結構有序,一時引爆芸芸眾生對 AI 應用的無限遐想,也開啟了今年以來風急雲怒般 AI 運算設施投資的狂潮。ChatGPT 的底層技術是名為 GPT-3.5 的大型語言模型。
除了問答以外,最先進的大型語言模型還可以支援許多自然語言處理的功能如文章的摘要、分類、比較、索引、生成和語意分析等。這些功能對許多企業用處很大,但實務上企業對運用建置於公有雲上的大型語言模型來開發新的 AI 應用仍相當遲疑,主因是資料保密性的考量。
臉書的研究團隊最近公布一個稱為 RAG(Retrieval-Augmented Generation)的技術,恰好可解決運用 ChatGPT 與保護機敏資料間的兩難。RAG 是先借助 ChatGPT 的語言理解能力將公司機敏文檔組合成私有資料庫,在回答用戶查詢時,它首先查詢私有資料庫以檢索出所有相關的文檔片段,然後再要求 ChatGPT 將這些文檔片段摘要成最後的回應。一方面避免上傳公司的機敏資料,另一方面也有效運用了公共大型語言模型的語言理解與總結能力。微軟新版的搜索引擎也採用類似的架構。
雖然這解決了機敏性資料保護的問題,但它還是要靠公共大型語言模型的支援才能運作下去。今年七月,臉書公布一個自用或二次開發商轉都免費的開源大型語言模型 Llama2,最強大的版本性能可媲美 GPT-3.5,企業自行建置私有大型語言模型遂變得實際可行。自那以後,數十個開源大型語言模型如雨後春筍般發布,看來將蔚為風潮。
如果進一步把 RAG 和私有大語言模型結合,就可作為許多企業級語言模型應用的開發基礎,如此不但得以保護機敏資料,開發與使用這些應用所需的花費也可大幅降低。如此一來,大型語言模型技術的商業模式將從建置在公有雲、涵蓋主題廣泛、注重安全性,演變成建置在私有雲、聚焦特定領域、強調功能精進。職是之故,年初業界普遍看好營收將一飛沖天的公有雲語言模型服務公司如微軟、谷歌與OpenAI,其前景可能沒有原來那麼看好,因為原來期待中的企業客戶營收可能不如預期。
此外,公共語言模型服務商還有另一隱憂:美國現下正有多起由書籍作者發起的訴訟,主張這些服務商訓練他們的語言模型時在沒獲授權的狀況下擅自使用書籍內容,因此要求簽定包含適當營收分潤的授權協議來補償作者。這些主張在法庭一旦成立,就會有各式各樣的內容公司群起效尤。如此一來,不但牽涉的利益極為龐大,光是就個別協議的交易細節進行曠日廢時的談判,預計就是深不見底的開銷。
對這些控訴,目前大型語言模型服務提供商的主要辯護依據為美國版權法中的合理使用(fair use)原則。簡單的說,針對一個有版權的物件X,如果一個非版權擁有人將X轉換成Y,從事商業營利活動,當Y愈不像X且Y所針對的市場與X原來的市場愈不相近,則這個使用行為就愈接近合理使用。一旦被視為合理使用,就不算侵犯版權,無需另付授權金。
不幸的是,當給予適當的提示,現存的大型語言模型幾乎都會吐出與源頭訓練材料用詞語意相似的回應;且大型語言模型服務的對象有時與源頭訓練材料針對的用戶雷同。由是觀之,版權問題對公共大語言模型服務商將是另一道巨大的陰影。