DaveC
@davecode
Fri, Feb 24, 2023 1:13 AM
17
6
全球首款千億參數級繁體中文 AI…
Ref
2023 年 2 月 23 日 — 由聯發科技集團轄下的前瞻技術研究單位聯發創新基地、中央研究院詞庫小組和國家教育研究院三方所組成的研究團隊,今日開放全球第一款繁體中文語言模型到開源網站提供測試。本次公開釋出以開源語言模型 BLOOM 開發的繁體中文大型語言模型(LLM:large language model),比目前開源可用的最大繁體中文模型大 1,000 倍,所使用的訓練資料也多 1,000 倍。該模型已公開讓外界下載,可應用於問答系統、文字編修、廣告文案生成、華語教學、客服系統等。
DaveC
@davecode
Fri, Feb 24, 2023 1:13 AM
開放原始碼釋出的大型語言模型,目前多數仍以英文為主要優化的對象,繁體中文的語言模型相對不足。為此中央研究院詞庫小組在 2019 年開發並公開 BERT 和 GPT-2 的繁體中文優化版本,但是因為資料量的差距,這些模型與主流的大型語言模型差距越來越大。
有鑑於開放原始碼繁體中文大型語言模型的重要性與迫切性,在 2022 年 5 月,聯發創新基地、中央研究院和國家教育研究院展開合作計畫,使用大型語言模型 BLOOM 的繁體中文模型再訓練與優化。目前開放系列中第一個有量級跳躍意義的繁體中文語言模型,聯發創新基地也暫備一個手機網頁的介面,供語言模型研究者試用。此模型系列的評量指標,以及參數量更大(176B)的模型,將會陸續開放下載。
Reco
@Reco_F
Fri, Feb 24, 2023 1:57 AM
稍微看了一下,還沒看到如何下載
DaveC
@davecode
Sun, Feb 26, 2023 7:00 AM
Facebook
Ref
終於可以把繁體中文化的大型語言模型捐贈出來了。目前出到十億參數等級。雖然離千億級尚遠,不過已經可以穩定輸出算是有意義的胡謅了。感謝同仁與所有支持我們的人的辛勞!
DaveC
@davecode
Sun, Feb 26, 2023 7:01 AM
全球首款繁中 AI 語言生成模型開源釋出!聯發科技、中研院、國教院攜手打造 - INSIDE
DaveC
@davecode
Sun, Feb 26, 2023 9:50 PM
[資源分享]
中研院與聯發創新基地,國教院合作發布了 bloom-1b1-zh,以繁體中文訓練的生成式語言模型。
ckip-joint/bloom-1b1-zh · Hugging Face
可以參考huggingface的說明下載參數使用。
也可以先在網頁版試用
https://huggingface.co/...
*此模型有十億餘參數,雖不及ChatGPT的百分之一,但就繁中基礎的語言模型具有量級跳躍意義。
載入新的回覆
Ref
2023 年 2 月 23 日 — 由聯發科技集團轄下的前瞻技術研究單位聯發創新基地、中央研究院詞庫小組和國家教育研究院三方所組成的研究團隊,今日開放全球第一款繁體中文語言模型到開源網站提供測試。本次公開釋出以開源語言模型 BLOOM 開發的繁體中文大型語言模型(LLM:large language model),比目前開源可用的最大繁體中文模型大 1,000 倍,所使用的訓練資料也多 1,000 倍。該模型已公開讓外界下載,可應用於問答系統、文字編修、廣告文案生成、華語教學、客服系統等。
有鑑於開放原始碼繁體中文大型語言模型的重要性與迫切性,在 2022 年 5 月,聯發創新基地、中央研究院和國家教育研究院展開合作計畫,使用大型語言模型 BLOOM 的繁體中文模型再訓練與優化。目前開放系列中第一個有量級跳躍意義的繁體中文語言模型,聯發創新基地也暫備一個手機網頁的介面,供語言模型研究者試用。此模型系列的評量指標,以及參數量更大(176B)的模型,將會陸續開放下載。
終於可以把繁體中文化的大型語言模型捐贈出來了。目前出到十億參數等級。雖然離千億級尚遠,不過已經可以穩定輸出算是有意義的胡謅了。感謝同仁與所有支持我們的人的辛勞!
中研院與聯發創新基地,國教院合作發布了 bloom-1b1-zh,以繁體中文訓練的生成式語言模型。
可以參考huggingface的說明下載參數使用。
也可以先在網頁版試用https://huggingface.co/...
*此模型有十億餘參數,雖不及ChatGPT的百分之一,但就繁中基礎的語言模型具有量級跳躍意義。