p/p67i27

@davecode

Fri, Feb 24, 2023 1:13 AM

17

6

Ref
2023 年 2 月 23 日 — 由聯發科技集團轄下的前瞻技術研究單位聯發創新基地、中央研究院詞庫小組和國家教育研究院三方所組成的研究團隊，今日開放全球第一款繁體中文語言模型到開源網站提供測試。本次公開釋出以開源語言模型 BLOOM 開發的繁體中文大型語言模型（LLM:large language model），比目前開源可用的最大繁體中文模型大 1,000 倍，所使用的訓練資料也多 1,000 倍。該模型已公開讓外界下載，可應用於問答系統、文字編修、廣告文案生成、華語教學、客服系統等。

DaveC

@davecode

Fri, Feb 24, 2023 1:13 AM

開放原始碼釋出的大型語言模型，目前多數仍以英文為主要優化的對象，繁體中文的語言模型相對不足。為此中央研究院詞庫小組在 2019 年開發並公開 BERT 和 GPT-2 的繁體中文優化版本，但是因為資料量的差距，這些模型與主流的大型語言模型差距越來越大。

有鑑於開放原始碼繁體中文大型語言模型的重要性與迫切性，在 2022 年 5 月，聯發創新基地、中央研究院和國家教育研究院展開合作計畫，使用大型語言模型 BLOOM 的繁體中文模型再訓練與優化。目前開放系列中第一個有量級跳躍意義的繁體中文語言模型，聯發創新基地也暫備一個手機網頁的介面，供語言模型研究者試用。此模型系列的評量指標，以及參數量更大（176B）的模型，將會陸續開放下載。