自從2022年11月 OpenAI 的ChatGPT推出之後,使用者人數迅速攀升,除了聊天、寫小說等各種生活用法之外,也已經有許多人將它應用在工作上,例如生成文案、撰寫程式、製作會議摘要、分析財務報表...等等,有許多職業受到了影響,但有更多工作因為ChatGPT的幫助,在效率上產生了極大的提升。
然而,隨著ChatGPT的使用越來越廣泛,亦爆發出企業機密資訊洩漏的情況。例如2023年3月南韓的三星公司開放員工使用ChatGPT,無意間將公司機密洩漏給ChatGPT。事件發生後,三星便禁止員工使用ChatGPT等生成式AI。而在政府方面,亦有義大利因隱私疑慮禁止ChatGPT的情況。而台灣的國科會最近也提出了生成式AI參考指引草案,禁止生成式AI寫機密文書、向AI提供公務機密等。國內的銀行業方面,亦有永豐金控禁止全體員工使用生成式AI。
根據調查顯示,有近半數的公司主管懷疑員工可能洩漏公司機密給ChatGPT,但是也有許多公司選擇擁抱ChatGPT等生成式AI,與其背後的大型AI公司建立了合作關係,在公部門方面亦有日本政府與微軟合作採用ChatGPT技術,處理大量的行政資料。
總的來說,使用ChatGPT等大語言模型生成式AI,對於各種文書處理行政工作都能帶來極大的效率提升。然而,如同我在前一篇文章中所分析的,目前為止,訓練大語言模型所需要的運算資源及標註資料,都掌握在大型AI公司手中。與這些大型AI公司合作,也不可避免的需要將企業內部資料與大型AI公司分享。而這些資料在被用來訓練AI之前,尚需經過人工標註,而這些標註工作可能外包至勞動力便宜的其他國家,不但品質參差不齊,更嚴重可能導致機密資料透過來路不明的標註人員外洩。
為了避免公司機密資料外洩,但又想得到大語言模型的好處,許多公司往往會想要自行訓練模型。然而,一般中小企業自行訓練大語言模型主要會面臨到三個挑戰:模型訓練、資料標註和系統維護。接下來我們將一一解釋這三項挑戰的困難點,以及我們的解決辦法。
訊息拼圖如何幫助企業客制化自己的LLM?
模型訓練
到目前為止,從頭訓練一個大語言模型的成本極高,介於200萬~1200萬美元不等,這是任何一般的中小企業都難以負擔的。為了挑戰市場上只有少數幾家大型AI公司壟斷的局面,一些較有能力的公司或研究單位開始以 Open Source 開放原始碼的形式釋出預訓練模型,較知名的有Bloom、Falcon、LLaMA 2等,其中又以Meta公司最近(2023年7月18日)釋出的LLaMA 2 為代表,號稱可媲美ChatGPT 底層模型GPT3.5的能力。經過許多網友的努力,甚至已經可以在單顆GPU上用自己的資料來完成模型微調(finetune)。
在一般企業的應用場景中,通常只需要AI能了解工作範圍以內的知識,而不需要像百科全書一樣上知天文下知地理。所以當模型微調的時候,只需要針對目標任務做訓練即可,無須耗費極大的運算資源。訓練過程完全可以在地端(local)電腦中進行,無須連網上雲端,因此也無須擔心模型或資料外洩的問題。
訊息拼圖的工程師團隊除了積極研發更輕量、可在有限資源運算的模型演算法之外,更可以按照客戶的需要,在地端完成模型訓練及微調的過程,確保模型產出的品質穩定,避免敏感資料外洩。
資料標註
各方研究指出,AI模型效果要好,訓練資料的品質最關鍵。例如微軟發表的這篇《Textbooks Are All You Need》,指出若有像教科書品質的資料可讓模型效果提升。Meta這篇《Llama 2: Open Foundation and Fine-Tuned Chat Models》也提到模型「對齊」人類偏好,對模型的產出是否符合人類期待有很大的重要性。在《LIMA: Less Is More for Alignment》也提到好的人工標註資料,數量不用多,就可以有很好的效果。在《The Curse of Recursion: Training on Generated Data Makes Models Forget》這篇研究中更提到,如果使用AI產物來訓練AI,最終會導致模型崩潰,且無法回溯,唯一的辦法就是要保留人類標註的原始資料,定期用高品質人類資料重新訓練。由此可見,高品質的人工標註對於AI的訓練來說是至關重要的。企業保留自己的標註資料以做為未來重新訓練之用,則更為重要。
但一定會有人問說:「既然都要人工,那我請10個人當客服,跟我請10個人標註有甚麼差呢?」當然有差!10個客服同一時間最多就只能服務10位顧客,但10個標註員訓練出來的AI,卻可同時服務成百上千人!有了AI,儘管你仍然只有10個客服,但現在你可以同時服務100位顧客!只有那些AI無法處理的問題,才會被轉接到真人客服手上。因此,當你請了少數的標註員對公司的各項業務進行標註後,所得到的AI便可在各項業務上同時服務多數人,能產生數倍的經濟效益,遠超過這少數標註員自身能夠服務的數量。
然而,由於企業內部文件多為專業知識含量較高的文字,跟一般的網路文字不同,其所需要的標註員條件應該也和一般網路眾包的標註員不同。一位專業文字標註員需要對文字概念有精準的掌握,並且具備快速學習不同領域概念的能力,方能應付各式各樣企業內部文件的標註任務。
訊息拼圖尋找並培養高品質、可被訓練、長期合作且可信賴的標註員,每位標註員皆可與客戶簽訂保密協議(NDA),避免像許多網路眾包平台一樣標註者來路不明,標註品質參差不齊,甚至可能造成企業資料外洩。
系統維護
近年來,人類社會發生了許多重大事件:新冠疫情、全球暖化、能源危機、地緣政治衝突…等,在這樣一個加速變動的環境,當一個模型被訓練好之後,若沒有定期更新維護,過一段時間模型就會跟不上時代,無法處理新出現的知識與概念。因此模型必須要經常更新維護,這一點在企業中尤其重要。因為企業必須時常調整內部規定以因應外界所制定的新規則,如新的法規、新的客戶要求、新的貿易規範等等。若一個公司內部的AI助理,卻只能回答訓練好當時的舊資訊,無法回答最新的資訊,反而會造成企業內部更多的矛盾與混亂。
其次,日益嚴重的駭客攻擊,再再挑戰著企業的資安防護底線。許多企業開始設下多道防火牆,嚴格禁止員工連網。但是員工有需要查詢資料的時候不能上網搜尋,除了造成效率上極大的降低之外,仍無法避免員工私下透過手機等行動裝置上網,這樣一來也就失去了避免駭客入侵、資訊洩漏的初衷了。
透過將大語言模型放在企業內部離線環境使用,即時回應員工所提出的問題,如同將網路知識濃縮放進公司中,可以避免員工私下上網查詢資料,減少資安事件發生的機率。
訊息拼圖提供完整的系統建置與更新流程,包含更新標註資料、更新訓練模型、前/後端、資料庫的建置與更新等,並請聘請專業的資安工程師顧問,能夠達到企業客戶的資安規範,讓客戶業務不停滯,隨時享有最新資料訓練出來的模型。