吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:05 PM
Sun, Oct 8, 2023 8:20 PM
26
24
謝昆霖
:中研院的AI大翻車,中央研究院詞庫小組 CKIP 釋出這個繁中 LLM ,昨晚看到新聞,仔細端詳後跟伙伴說一定會出問題。
中研院用簡轉繁的資料集訓練完他們認為適用台灣的基礎模型,再派它去考中國的考試。
這相當於「教育部搬中國所有系所的教科書,簡轉繁教學生;再拿中國所有的專業考卷,簡轉繁後考學生。」
學生考不好,敢問是要叫它背台灣教科書還是背中國教科書?
@davecode - Ref 中研院用簡轉中的資料集訓練完他們認為適用台灣的基礎模型,然後再派它去考中...
數據汙染
Inty热点新闻 on X
比利时担心中国利用阿里巴巴的欧洲物流中心进行间谍活动。
比利時示警:阿里巴巴子公司「菜鳥網路」恐從事間諜活動 - 自由財經
個資安全
中國小偷間諜計畫
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:07 PM
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:08 PM
中研院的AI大翻車。中央研究院詞庫小組(CKIP)釋出這個繁中 LLM ,昨晚我看到新聞,仔細端詳之後就趕緊跟伙伴說它一定會出問題。
它的多任務微調訓練,使用兩個簡轉繁後的資料:
1. COIG-PC 資料集
2. dolly-15k 資料集
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:08 PM
COIG-PC 資料集
該資料集的基礎資料是 北京星塵數據
AI2.0数据标注和数据策略专家|星尘数据
提供的網路資料集。並由以中國 AI 相關研究單位為首,超過二十所全球知名大學和機構共同編制。(資料集:
BAAI/COIG-PC · Datasets at Hugging Face
以下是一些重點機構
• 中國:北京人工智慧學院
• 中國:北京大學
• 中國:香港科技大學
• 加拿大:滑鐵盧大學
• 英國:謝菲爾德大學
• 中國:北京郵電大學
• 中國:
AI2.0数据标注和数据策略专家|星尘数据
• 中國: LinkSoul.AI
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:08 PM
dolly-15k 資料集
是一個以簡體中文為主的一般性知識問答對話資料集。
預覽:
Elliot4AI/dolly-15k-chinese-guanacoformat · Datasets...
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:09 PM
Sun, Oct 8, 2023 8:09 PM
用簡體中文資料,再透過 OpenCC
GitHub - BYVoid/OpenCC: Conversion between Tradition...
翻成繁體中文就能訓練出台灣可用的訓練資集嗎?
答案絕對是否定的。
簡轉中不只是用字遣詞的差異,它還包含很多的民生知識、文化知識,用北京研究機構校正出來的是「適用於中國的民生、文化知識」,要再修剪成「台灣版」,
它再監督與修正的總體成本會高於「認份做台灣的資料集」。
終究是要做台灣的資料集,為什麼不一開始就做?
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:09 PM
除了訓練資料集。評鑑也是個大問題!!!
CKIP 說這個LLM 經過C-Eval中文模型評測,C-Eval 是什麼?它是「中國清大」、「中國交大」開發的中文基礎模型評量系統
C-Eval: 一个适用于大语言模型的多层次多学科中文评估套件
中研院用簡轉繁的資料集訓練完他們認為適用台灣的基礎模型,然後再派它去考中國的考試,計算分數。
這相當於「教育部搬中國所有系所的教科書,簡轉繁教學生;再拿中國所有的專業考卷,簡轉繁後考學生。」
學生考不好,敢問是要叫它背台灣教科書還是背中國教科書?
一般商用的還好,中研院推的基礎模型用中國資料轉繁體後訓練,並說明可用於「學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。」
這會出事的。
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:09 PM
怎麼測試?按這個連結,問他一些學術術語、政府運作體制、地方文物,保證你會看到一個繁體中文講很好,略知台灣的中國AI。
CKIP Llama 2 7b Chat - a Hugging Face Space by ckipl...
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:10 PM
我可以理解台灣嚴重嚴重缺乏台灣在地語言資料集的困境,它真的超級燒錢,是用億為單位計算的。要整個做好,可能相當於好幾個軍購案做好多年。
政府很難編列這種預算,很難說服民意機關投資;民間企業也不可能投資這種錢做語言數位化。但資料集是AI時代的基礎建設。
OpenAI 使用了大量「人工整理過的高品質 Reddit 對話」才讓 GPT-3.5 人模人樣。但中研院畢竟是國家投資的研究單位,而且還是「台灣的詞庫小組」。
所以我希望為中研院發聲。
AI 時代的競爭,強化台灣在地用詞的資料收集、建立資料集,建立熟悉台灣在地文化的AI,應該視為 國防/國安 投資,有急迫性和必要性。
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:10 PM
Sun, Oct 8, 2023 8:10 PM
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:11 PM
(完)
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:14 PM
謝昆霖
問專業的就會翻車,這樣學術、商業完全不能用,要導入首先是全部再訓練一次。
砂、石,台灣會講骨材、粒料。我們講「品質」不講「質量」。
維基》
混凝土 - 維基百科,自由的百科全書
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:14 PM
謝昆霖
其實這個AI 很適合打算去中國發展的台灣人使用。
1. 公司類型:獨資企業、合夥企業、有限責任公司、股份有限公司等;
2. 申請機關:工商局、稅務局、人力資源和社會保障局、質量技術監督局等;
3. 辦理手續:公司名稱預先審批、設立登記、稅務登記、財務報表等。
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:14 PM
謝昆霖
我想要開公司,找社會保障局要辦理什麼業務?要注意什麼?
社會保障局可以幫助您辦理企業社保業務,具體流程如下:
1. 確定企業社保繳費基數和比例:根據企業實際情況,確定企業社保繳費基數和比例。
2. 辦理社保登記:向社會保障局提交企業信息、職工信息等材料,辦理社保登記。
3. 繳納社保費用:按照確定的繳費基數和比例,繳納企業和職工的社保費用。
4. 開具發票:社會保障局會爲您開具發票,以便於您對外開具發票。
5. 審計:定期對企業社保情況進行審計,以確保企業按照規定進行社保繳費。
6. 社保服務:社會保障局提供社保服務,包括政策解釋、信息查詢、待遇領取等。
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:15 PM
謝昆霖
在中國,企業社保業務有五個保險
我看到「賬」戶就知道整碗壞掉了
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:16 PM
謝昆霖
五險一金
五險一金是中國的企業和個人爲了彌補社會保險和養老金不足而繳納的五種社會保險和一種養老金。它們分別是:養老保險、醫療保險、失業保險、工傷保險和生育保險,以及養老金。
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:16 PM
Deva Lin
測試一下,這是內建 GFW
中國敏感詞不會跑出結果。
謝昆霖
Deva Lin 試過秀一下翻車畫面
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:17 PM
林奇葦
CKIP 小組對台灣中文分詞、語義都做了很多貢獻,語義分詞還能用教育部的資料,但資料集真的是根本性的問題。
謝昆霖
林奇葦 資料集問題超大
林奇葦
謝昆霖 中國市場結構和政治體制決定了他們有能力、有資本、有法源去蒐集並建立資料集,但臺灣除非政策制定者意識到並立刻開始執行,不然我對台灣的 LLM 持悲觀看法...
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:17 PM
Wesley Wang
今天測了半天才發現連英翻繁中也不行~( ̄∇ ̄)
謝昆霖
Wesley Wang 也會變中國人嗎?
Wesley Wang
謝昆霖 不會變簡中,連整理都不整理,直接吐英文回來~( ̄∇ ̄)
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:17 PM
Lulu Chin
如果可以把雅虎關掉的知識+ data好好去蕪存菁整理一下,也許可以當部份訓練資料like Reddit
謝昆霖
Lulu Chin 要花錢買、取得授權。這需要共識。但這真的是好提議,相對現在的社群媒體,知識+的品質很好,而且大多是在大規模中國用語污染前累積的。
我覺得 Bloger 、痞客邦 的也可以
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:21 PM
吳三傑
測試:幫我擬一段國慶賀詞
國慶將至,神州大地飄揚着紅色的喜悅,人民熱烈地歡慶着這一偉大的日子。我們迎來了新的開始,新的機遇,新的挑戰,堅定不移地朝着中國夢前行。同時,也提醒我們不忘初心,牢記使命,爲實現中華民族偉大復興的中國夢而不懈努力!
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Sun, Oct 8, 2023 8:21 PM
Chia-Hsun J. Yang
在氣象局鄭明典前局長臉書也有人問氣象資料怎麼拿去餵「盤古天氣預報模式」 ......
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
想
Sun, Oct 8, 2023 8:23 PM
我們台灣媒體跟政府官方都不把大陸正名成中國了^^
我個人的疑問是,台灣做這個資料庫出來,不會被中國反過來利用糾錯它們的假訊息用語嗎?做更精細的認知作戰嗎??
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Mon, Oct 9, 2023 9:52 AM
@CteaX55 - 【謝昆霖】中研院的AI大翻車。中央研究院詞庫小組(CKIP)(略)這相當於「教育部...
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Fri, Oct 13, 2023 10:22 AM
@Silentsubmarine - =>
中研院正式開源釋出繁中優化的Llama 2大型語言模型,正式採用Apache2.0釋出
吾皆娑婆 三千鴉殺浮屠之影
@surname_chikamui
Mon, Dec 25, 2023 7:28 AM
@sophist4ever - 是說昨天去上AI課時,講師在講大型語言模型的訓練時,痛罵中研院罵了快二十...
載入新的回覆
中研院用簡轉繁的資料集訓練完他們認為適用台灣的基礎模型,再派它去考中國的考試。
這相當於「教育部搬中國所有系所的教科書,簡轉繁教學生;再拿中國所有的專業考卷,簡轉繁後考學生。」
學生考不好,敢問是要叫它背台灣教科書還是背中國教科書?
它的多任務微調訓練,使用兩個簡轉繁後的資料:
1. COIG-PC 資料集
2. dolly-15k 資料集
該資料集的基礎資料是 北京星塵數據 AI2.0数据标注和数据策略专家|星尘数据 提供的網路資料集。並由以中國 AI 相關研究單位為首,超過二十所全球知名大學和機構共同編制。(資料集:
• 中國:北京人工智慧學院
• 中國:北京大學
• 中國:香港科技大學
• 加拿大:滑鐵盧大學
• 英國:謝菲爾德大學
• 中國:北京郵電大學
• 中國: AI2.0数据标注和数据策略专家|星尘数据
• 中國: LinkSoul.AI
是一個以簡體中文為主的一般性知識問答對話資料集。
預覽:
答案絕對是否定的。
簡轉中不只是用字遣詞的差異,它還包含很多的民生知識、文化知識,用北京研究機構校正出來的是「適用於中國的民生、文化知識」,要再修剪成「台灣版」,
它再監督與修正的總體成本會高於「認份做台灣的資料集」。
終究是要做台灣的資料集,為什麼不一開始就做?
CKIP 說這個LLM 經過C-Eval中文模型評測,C-Eval 是什麼?它是「中國清大」、「中國交大」開發的中文基礎模型評量系統 C-Eval: 一个适用于大语言模型的多层次多学科中文评估套件
中研院用簡轉繁的資料集訓練完他們認為適用台灣的基礎模型,然後再派它去考中國的考試,計算分數。
這相當於「教育部搬中國所有系所的教科書,簡轉繁教學生;再拿中國所有的專業考卷,簡轉繁後考學生。」
學生考不好,敢問是要叫它背台灣教科書還是背中國教科書?
一般商用的還好,中研院推的基礎模型用中國資料轉繁體後訓練,並說明可用於「學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。」
這會出事的。
政府很難編列這種預算,很難說服民意機關投資;民間企業也不可能投資這種錢做語言數位化。但資料集是AI時代的基礎建設。
OpenAI 使用了大量「人工整理過的高品質 Reddit 對話」才讓 GPT-3.5 人模人樣。但中研院畢竟是國家投資的研究單位,而且還是「台灣的詞庫小組」。
所以我希望為中研院發聲。
AI 時代的競爭,強化台灣在地用詞的資料收集、建立資料集,建立熟悉台灣在地文化的AI,應該視為 國防/國安 投資,有急迫性和必要性。
問專業的就會翻車,這樣學術、商業完全不能用,要導入首先是全部再訓練一次。
砂、石,台灣會講骨材、粒料。我們講「品質」不講「質量」。
維基》
其實這個AI 很適合打算去中國發展的台灣人使用。
1. 公司類型:獨資企業、合夥企業、有限責任公司、股份有限公司等;
2. 申請機關:工商局、稅務局、人力資源和社會保障局、質量技術監督局等;
3. 辦理手續:公司名稱預先審批、設立登記、稅務登記、財務報表等。
我想要開公司,找社會保障局要辦理什麼業務?要注意什麼?
社會保障局可以幫助您辦理企業社保業務,具體流程如下:
1. 確定企業社保繳費基數和比例:根據企業實際情況,確定企業社保繳費基數和比例。
2. 辦理社保登記:向社會保障局提交企業信息、職工信息等材料,辦理社保登記。
3. 繳納社保費用:按照確定的繳費基數和比例,繳納企業和職工的社保費用。
4. 開具發票:社會保障局會爲您開具發票,以便於您對外開具發票。
5. 審計:定期對企業社保情況進行審計,以確保企業按照規定進行社保繳費。
6. 社保服務:社會保障局提供社保服務,包括政策解釋、信息查詢、待遇領取等。
在中國,企業社保業務有五個保險
我看到「賬」戶就知道整碗壞掉了
五險一金
五險一金是中國的企業和個人爲了彌補社會保險和養老金不足而繳納的五種社會保險和一種養老金。它們分別是:養老保險、醫療保險、失業保險、工傷保險和生育保險,以及養老金。
測試一下,這是內建 GFW
中國敏感詞不會跑出結果。
謝昆霖
Deva Lin 試過秀一下翻車畫面
CKIP 小組對台灣中文分詞、語義都做了很多貢獻,語義分詞還能用教育部的資料,但資料集真的是根本性的問題。
謝昆霖
林奇葦 資料集問題超大
林奇葦
謝昆霖 中國市場結構和政治體制決定了他們有能力、有資本、有法源去蒐集並建立資料集,但臺灣除非政策制定者意識到並立刻開始執行,不然我對台灣的 LLM 持悲觀看法...
今天測了半天才發現連英翻繁中也不行~( ̄∇ ̄)
謝昆霖
Wesley Wang 也會變中國人嗎?
Wesley Wang
謝昆霖 不會變簡中,連整理都不整理,直接吐英文回來~( ̄∇ ̄)
如果可以把雅虎關掉的知識+ data好好去蕪存菁整理一下,也許可以當部份訓練資料like Reddit
謝昆霖
Lulu Chin 要花錢買、取得授權。這需要共識。但這真的是好提議,相對現在的社群媒體,知識+的品質很好,而且大多是在大規模中國用語污染前累積的。
我覺得 Bloger 、痞客邦 的也可以
測試:幫我擬一段國慶賀詞
國慶將至,神州大地飄揚着紅色的喜悅,人民熱烈地歡慶着這一偉大的日子。我們迎來了新的開始,新的機遇,新的挑戰,堅定不移地朝着中國夢前行。同時,也提醒我們不忘初心,牢記使命,爲實現中華民族偉大復興的中國夢而不懈努力!
在氣象局鄭明典前局長臉書也有人問氣象資料怎麼拿去餵「盤古天氣預報模式」 ......
我個人的疑問是,台灣做這個資料庫出來,不會被中國反過來利用糾錯它們的假訊息用語嗎?做更精細的認知作戰嗎??