DaveC
Facebook
Ref
中研院用簡轉中的資料集訓練完他們認為適用台灣的基礎模型,然後再派它去考中國的考試,計算分數。

---這可不妙
https://images.plurk.com/3ZZ8nfb3m4fad4zvlSNna8.jpg https://images.plurk.com/6Kgb6b5IaOHOeMmtGkCT0u.jpg
DaveC
中研院用簡轉中的資料集訓練完他們認為適用台灣的基礎模型,然後再派它去考中國的考試,計算分數。

這相當於「教育部搬中國所有系所的教科書,簡轉繁教學生;再拿中國所有的專業考卷,簡轉繁後考學生。」

學生考不好,敢問是要叫它背台灣教科書還是背中國教科書?

一般商用的還好,中研院推的基礎模型用中國資料轉繁體後訓練,並說明可用於「學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。」

這會出事的。

.

怎麼測試?按這個連結,問他一些學術術語、政府運作體制、地方文物,保證你會看到一個繁體中文講很好,略知台灣的中國AI。

CKIP Llama 2 7b Chat - a Hugging Face Space by ckipl...

.
DaveC
https://images.plurk.com/4tPltMjL9GhkbXPUjfpouE.png https://images.plurk.com/685KTXxGPJ91arfqKDlxXf.png
不意外
DaveC
測試幾個詞彙,這是內建 GFW !
中國敏感詞不會跑出結果。
杜枝
果然是「中國研究院」
Reco
跟中國一樣甚麼都想借鑒別人的方式,是不可能走出像是台積電一樣屬於自己的路
秘密客
DaveC : 敏感詞我測試了一下現在都有演算出來了,而且還算是正確,會不會是有調整過了?
pfge
用國科會經費?
天光已現 | pee
這只是一個研究員的研究計畫,不用太在意。。。這種計畫根本沒甚麼經費,只能找免錢的資料集。。。這些東西很貴的,你跟華視要電視新聞的稿子跟語音,至少要一千萬!而且這只會是用來訓練大語言模式的一小部分資料,要收集足夠的資料,好幾億元跑不掉,這本來就是國家級(或是google、Meta等級)的研究,,,
天光已現 | pee
台灣國科會也在做,這種規格就是國家級的大語言模式,只希望他們做完後,可以把資料集開放讓其他學者來用,這樣其他學者就不需也不會去用中國提供的資料集
timpani碰
天光已現 | pee : 有太多企業以及法人,也都是用 CKIP 的幾項成果在開發系統 (當然是為了省錢),不可不慎。
天光已現 | pee
他們用的是詞庫,這是完全台灣土產的
☀朝狐☀
笑死,台灣人用中國 AI 還可以護航 (thinking)
大歐派蘿莉
真的是很慘,繁體中文模型就已經寥寥無幾了,還要被各種意識型態放大檢視,這樣根本沒人敢投入/開源做這些事情
載入新的回覆