何謂大型語言模型?
2022年11月,OpenAI 公司推出了 ChatGPT,一款交互式對話機器人,以其流利的對話方式、無所不包的對話內容、能應使用者要求,扮演各種角色(如:教師、客服員...等)的能力,迅速獲得了廣大群眾的關注。其中所採用的便是稱為 GPT 3.5 的大型語言模型。
為何大型語言模型這麼厲害?
大量的常識性資料的預訓練
透過將網路上可隨意取得之常識性資料,餵給AI大語言模型學習,讓他預先學習到人類語言的文法、風格及內涵。
人工標註資料的微調
透過人工標註資料對預訓練過後的大語言模型進行進一步微調,可使大語言模型的輸出更加符合人類期待,此步驟又可稱之為「對齊」。越高品質的人工標註資料,「對齊」的效果就越好。
很好,但是除了很會聊天之外,它還能做什麼呢?
問答式調出資料
許多公司行號、政府單位內部都有大量的文件、報表,這些資料散落各個單位,並且經常具有好幾個不同版本,光是要調出一份資料就曠日廢時....
語意式搜尋
傳統關鍵字搜尋引擎,雖可做到對文字內容進行關鍵字搜尋,但是由於缺乏對語義的了解,以至於使用者必須下達準確的關鍵字,才能搜尋到相關的內容....
處理非結構化文件
傳統的資料庫只能處理「結構化」資料,資料必須在輸入之前,就先設定好各個欄位。但是有許多敘述性的文字資料,例如法規條文、公司規章等,無法被簡單的分到某個欄位....
訊息拼圖提供從資料標註、分析、搜尋、客製化AI建模、資料視覺化、資料庫建置至網站前後端架設之完整解決方案。