DaveC
@davecode
Sun, Oct 8, 2023 4:24 PM
62
42
Facebook
Ref
中研院用簡轉中的資料集訓練完他們認為適用台灣的基礎模型,然後再派它去考中國的考試,計算分數。
---這可不妙
DaveC
@davecode
Sun, Oct 8, 2023 4:26 PM
+
@davecode - Ref 中研院CKIP Lab中文詞知識庫小組,最新開源釋出了以Llama 2開...
DaveC
@davecode
Sun, Oct 8, 2023 4:27 PM
中研院用簡轉中的資料集訓練完他們認為適用台灣的基礎模型,然後再派它去考中國的考試,計算分數。
這相當於「教育部搬中國所有系所的教科書,簡轉繁教學生;再拿中國所有的專業考卷,簡轉繁後考學生。」
學生考不好,敢問是要叫它背台灣教科書還是背中國教科書?
一般商用的還好,中研院推的基礎模型用中國資料轉繁體後訓練,並說明可用於「學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。」
這會出事的。
.
怎麼測試?按這個連結,問他一些學術術語、政府運作體制、地方文物,保證你會看到一個繁體中文講很好,略知台灣的中國AI。
CKIP Llama 2 7b Chat - a Hugging Face Space by ckipl...
.
DaveC
@davecode
Sun, Oct 8, 2023 4:29 PM
不意外
DaveC
@davecode
Sun, Oct 8, 2023 4:31 PM
測試幾個詞彙,這是內建 GFW !
中國敏感詞不會跑出結果。
杜枝
@jysnow
Sun, Oct 8, 2023 5:20 PM
果然是「中國研究院」
Reco
@Reco_F
Sun, Oct 8, 2023 5:24 PM
跟中國一樣甚麼都想借鑒別人的方式,是不可能走出像是台積電一樣屬於自己的路
秘密客
@mysterier
Sun, Oct 8, 2023 5:44 PM
Sun, Oct 8, 2023 5:44 PM
DaveC
: 敏感詞我測試了一下現在都有演算出來了,而且還算是正確,會不會是有調整過了?
pfge
@pfge
Sun, Oct 8, 2023 8:56 PM
用國科會經費?
天光已現 | pee
@peeplurk
Mon, Oct 9, 2023 1:18 AM
Mon, Oct 9, 2023 1:18 AM
這只是一個研究員的研究計畫,不用太在意。。。這種計畫根本沒甚麼經費,只能找免錢的資料集。。。這些東西很貴的,你跟華視要電視新聞的稿子跟語音,至少要一千萬!而且這只會是用來訓練大語言模式的一小部分資料,要收集足夠的資料,好幾億元跑不掉,這本來就是國家級(或是google、Meta等級)的研究,,,
天光已現 | pee
@peeplurk
Mon, Oct 9, 2023 1:20 AM
Mon, Oct 9, 2023 1:20 AM
台灣國科會也在做,這種規格就是國家級的大語言模式,只希望他們做完後,可以把資料集開放讓其他學者來用,這樣其他學者就不需也不會去用中國提供的資料集
timpani碰
@timpani
Mon, Oct 9, 2023 1:25 AM
天光已現 | pee
: 有太多企業以及法人,也都是用 CKIP 的幾項成果在開發系統 (當然是為了省錢),不可不慎。
天光已現 | pee
@peeplurk
Mon, Oct 9, 2023 1:28 AM
他們用的是詞庫,這是完全台灣土產的
☀朝狐☀
@SolarFox
Mon, Oct 9, 2023 2:21 AM
笑死,台灣人用中國 AI 還可以護航
大歐派蘿莉
@Penut85420
Mon, Oct 9, 2023 7:08 AM
真的是很慘,繁體中文模型就已經寥寥無幾了,還要被各種意識型態放大檢視,這樣根本沒人敢投入/開源做這些事情
載入新的回覆
中研院用簡轉中的資料集訓練完他們認為適用台灣的基礎模型,然後再派它去考中國的考試,計算分數。
---這可不妙
這相當於「教育部搬中國所有系所的教科書,簡轉繁教學生;再拿中國所有的專業考卷,簡轉繁後考學生。」
學生考不好,敢問是要叫它背台灣教科書還是背中國教科書?
一般商用的還好,中研院推的基礎模型用中國資料轉繁體後訓練,並說明可用於「學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。」
這會出事的。
.
怎麼測試?按這個連結,問他一些學術術語、政府運作體制、地方文物,保證你會看到一個繁體中文講很好,略知台灣的中國AI。
.
不意外
中國敏感詞不會跑出結果。