Zaious|AI 情報屋
簡介:台灣繁中語言模型BLOOM-zh & FFM

這是今天簡報內容,也分享一份簡單版的在這邊,這部分自己研究自己理解會有點複雜希望能幫有需要的朋友能方便理解,部分內容來自台灣智慧雲端的AI超算年會。

1.台灣有兩個「繁體中文語言模型」

分別是
聯發科 & 教育部國家教育研究院 & 中央研究院詞庫小組 的 BLOOM-Zh(繁體中文增強型BLOOM模型)


華碩 & 科技部國家實驗研究院國家高速網路與計算中心中心 = 台灣智慧雲端 的 FFM(Formosa Foundation Model, 福爾摩沙基礎語言模型 ,或稱台智雲版繁中BLOOM)

對,台灣的兩個繁體中文語言模型都是源自於開源的BLOOM語言模型,非純中文模型,而且研發單位跟資料來源都不同,但又都同時具有官方背景。
Zaious|AI 情報屋
2.開源的BLOOM語言模型介紹

全稱: BigScience Large Open-science Open-access Multilingual Language Model

主導公司 Hugging Face 在2022.05啟動的專案,由全球60個國家、逾250個機構,以及超過1,000名研究人員的貢獻,最後由法國超級電腦Jean Zay執行117天的訓練而成。

bigscience/bloom · Hugging Face

https://images.plurk.com/2qBw9sRFznxBhnObkBiPtq.png
Zaious|AI 情報屋
BLOOM 最大的版本具有 176B(1760億) 參數,對照組 GPT3:175B / GPT3.5: 200B,可以理解46種語言及13種程式語言,包含法文、西班牙文、越南文、中文或多種印度及非洲語言,大約只有30%的訓練資料為英文(但缺少德文、日文、俄文)。

能要求BLOOM撰寫食譜、翻譯或摘要,也能要求BLOOM撰寫程式碼。

具備1,760億個參數的語言模型BLOOM開源了
開源語言模型BLOOM 期待開啟AI的「 Android」 時代
Zaious|AI 情報屋
釋出的版本包含 BLOOM-560m / 1b1 / 1b7 / 3b / 7b1 / 176b ,b = billion,參數量 176B版本有約等於GPT3.5的同級水準。
https://images.plurk.com/7iD8Y7Dz4p6vNlUtNAPiYC.png

簡體中文語料占比16.2% 繁體中文語料占比0.05%。

BLOOM
README.md · bigscience/bloom at main
Zaious|AI 情報屋
*語言模型的開源通常包含以下內容:

模型的架構:也就是該模型的基本設計,包括它是如何構建的、如何運作的等。
訓練程式 :這是用來訓練模型的程式,它定義了如何使用數據來訓練模型。
預訓練模型:這是一種已經過訓練的模型,用戶可以直接使用它來生成文本或者在特定的任務上進行微調。

但需要注意的是,開源並不意味著訓練數據也被公開。
(以上文字from GPT4 Web Browsing)
Zaious|AI 情報屋
3.BLOOM-Zh 語言模型介紹

第一個繁體中文(特化)語言模型,分為1b1版跟3b版,改自 BLOOM-1b1 / BLOOM-3b,開源在 Hugging Face,也是唯一開源的繁體中文語言模型,3b版公開日期 2023.04,預期使用情境包含問答系統、文字編修、廣告文案生成、華語教學、客服系統。

ckip-joint/bloom-3b-zh · Hugging Face
Zaious|AI 情報屋
2022年5月,聯發創新基地、中央研究院和國家教育研究院展開合作計畫,使用大型語言模型BLOOM的繁體中文模型再訓練與優化。

聯發創新基地則建置了訓練的硬體環境,制訂各種符合國際標準的繁體中文評量指標,收集更近期的語料,並對模型進行能更有效讀懂使用者的指示(prompt)的特別訓練。

國家教育研究院提供了大量高品質的繁體中文語料,作為主要的訓練材料。中央研究院詞庫小組則針對模型生成的文字是否具有偏見或敵意等不合適的內容,進行自動偵測與改正的研究與評估。

台版ChatGPT!聯發科偕中研院 釋出中文AI語言生成模型 | 股匯投資 | 財經 | NOWnews...
https://ezone.ulifestyle.com.hk/...
Zaious|AI 情報屋
中研院詞庫小組是台灣負責研究繁體中文自然語言處理的研究單位,曾在2019年開發並公開BERT和GPT-2的繁體中文優化版本。

具體做的事情可以參考下面這篇
斷開中文的鎖鍊!自然語言處理 (NLP)是什麼? - 台灣人工智慧學校

實際上BLOOM-zh效果...
https://images.plurk.com/5Nwi4czISV7b6TYLhWZxs8.png

沒意外就是之前很多人說"很爛的繁中BLOOM模型"
Zaious|AI 情報屋
4.台智雲 FFM 語言模型介紹

第一個企業級繁體中文(特化)大型語言模型,分為7b1版跟176b版,改自 BLOOM-7b1 / BLOOM-176b,據說有個500b的版本。

正式發表於2023.05,之前都稱為台智雲(TWS)版的繁中BLOOM模型,預計2023.07上線,僅對企業用戶,沒有打算開放民用。

未更新FFM資料的官方網站
https://tws.twcc.ai/...

2023.02的早期介紹影片
09 Building Large Language Models on TWS Experience ...
Zaious|AI 情報屋
2018年,科技部國研院國網中心結合廣達、台灣大、華碩等三大國內企業共同組隊建造的「雲端服務及大數據運算設施暨整合式階層儲存系統」(簡稱AI雲端平台/ 臺灣AI雲 TWCC),擁有命名為「台灣杉二號」(TAIWANIA 2)的AI超級電腦主機。

2021年2月成立,華碩集團子公司,與國家高速網路與計算中心合作,承作TWCC的維運和銷售。華碩身為台智雲最大股東,台灣大、兆豐金和永豐金合計投資共1.3億元,成為高科技業、電信資通、金融證券三強鼎立的多元股東結構。
https://images.plurk.com/3nyYXfyUVnMTEMul6Gqbxb.png

國衛院、華碩、廣達和台灣大成立AI國家隊 搶進進入5G、AI、雲端及物聯網大匯流時代 - 生技投資第一站...
asus 新聞介紹! 獨家資料! (2023年更新) - Clarisonic
Zaious|AI 情報屋
資料來源是意藍資訊有限公司,
意藍資訊有限公司是一間專業在分析台灣產業與社群的公司,幾乎囊括台灣各大社群平台的使用者公開資料,專注在產業應用與社群分析上。
https://images.plurk.com/1arTjoKZ00R82O614Tbjsc.png

eLAND | 意藍資訊
Zaious|AI 情報屋
FFM Demo起來的感覺粗估有達到GPT 3.5的水準,同時對於台灣具有相當多的事實資訊,包括台灣的地理與歷史資訊、商業品牌與市場資訊、文化資訊等等。

主打企業可以針對訓練模型、本地存放、符合台灣資安與法規需求等等。

現場一些Demo與投影片畫面:
https://images.plurk.com/3vYerbaKXG5TzIMhTjCbTt.png
https://images.plurk.com/2MYAIt9XLhn76VKbdGxsx0.png https://images.plurk.com/11oRzMol8ASfgG4teMvCrB.png https://images.plurk.com/DSlxBdEbuAnKYw8oVWeb6.png

擔心ChatGPT外流企業機密?第一款商用本土LLM模型亮相,支援離線部署讓對話資料不用出內網
Zaious|AI 情報屋
https://images.plurk.com/3oba15qvtTT00CqkFz4I6J.png
https://images.plurk.com/3RZda9yAXseTqBSdvKeWIn.png

https://images.plurk.com/7livkx0dYvbV6aOF4PQE6D.png

https://images.plurk.com/5Rw06HI9QudUMXyv6EFYMy.png
https://images.plurk.com/dn7Vc29N9DbFd2a1NseH1.png

https://images.plurk.com/29jyqilxZHEfF7L4UwpQ0A.png

https://images.plurk.com/2vaYCZUa4Vee95TVtYU72O.png
Zaious|AI 情報屋
生成式AI市場數據

https://images.plurk.com/1iRdK0weumTW7deHwUYEJJ.png
https://images.plurk.com/2bvMJedSS4w3rQQo79OPT.png
Zaious|AI 情報屋
ChatGPT Sees Strong Early Adoption In The Workplace
By Industry
1. Marketing and Advertising have the highest adoption with 37%
2. Tech follows with 35%
3. Consulting with 30%
4. Accounting and Teaching come in at 16% and 19%, respectively
5. Healthcare has the lowest usage with 15%

https://www.fishbowlapp.com/...
Zaious|AI 情報屋
.
Zaious|AI 情報屋
剩下的整理報告我就不貼了,因為不能民用所以跟大部分的使用者其實也沒什麼關係,主要就是幫大家區分一下繁體中文語言模型的區別,不然讀起來很混亂。

有興趣歡迎提問XD
載入新的回覆