DaveC
@davecode
Thu, Jul 4, 2024 7:07 AM
116
73
從「兩個隱憂」剖析為什麼台灣需要自己的繁中語言模型?
我們將深入探討台灣為什麼需要建立自己的繁中語言模型。台大副教授陳縕儂教授將透過分析「兩個隱憂」,解釋為何這對台灣的未來發展至關重要。
第一是隱憂是,台灣的人口基數、市場比較小,國外的語言模型缺乏足夠量能照顧台灣,「比如說有一些情況,我們很明顯知道只要把這個資料放進去訓練,可能就會變好了,但就變成我們國家可能需要跟他們(國外)談合作,我們把這些東西提供給你們,你們把它放進去,讓這個模型變好。只是這樣子就會變成有核心技術掌握在別人手上,你自己要動的時候,每次都還要找這個專家來幫你調,就會比較麻煩。」
DaveC
@davecode
Thu, Jul 4, 2024 7:07 AM
第二個隱憂是,如果台灣不發展自己的繁體中文語言模型,很多企業可能就會開始採用中國的語言模型,而因為不知道中國語言模型訓練了什麼資料,或者是做了哪些調整,導致最後的結果可能不符合台灣的生活型態,「大部分中國想傳遞的理念和價值觀可能會轉換成比較單一的,但台灣其實是擁有非常多元價值觀的一個環境。」
由長春集團、和碩聯合科技、長庚醫院、欣興電子、科技報橘聯合發起,與台大資工系、台大資管系及律果科技合作,在 NVIDIA 技術支援下訓練的「繁體中文專家模型開源專案 TAiwan Mixture of Experts(後簡稱 Project TAME )」,已正式對外發布,將以 Open Source 開放原始碼的形式,創造台灣的 AI 應用生態系。
神無 kei
@kannakei
Thu, Jul 4, 2024 9:21 AM
另外日本這邊已經不知道看到幾個日本語特化的AI語言模型要製作或是已經發布了...
総務省とKDDI、日本語特化の生成AI開発へ 使い勝手向上 - 日本経済新聞
イライザ、日本語特化AIモデル開発 性能「GPT-4」超え - 日本経済新聞
国内最大級1000億パラメーターのAIモデル、ベンチャー開発 “幻覚”少なく
DaveC
@davecode
Thu, Jul 4, 2024 7:35 PM
神無 kei
: 謝謝分享日本 AIGC 方面新聞報導
神無 kei
@kannakei
Thu, Jul 4, 2024 11:08 PM
利用日本超級電腦「富嶽」學的「純國產」LLM現可在GitHub和Hugging Face上免費獲取
富岳で学習した“純”国産LLMが、GitHub・Hugging Faceで無償公開
Fugaku-LLM/Fugaku-LLM-13B · Hugging Face
另外附一些日本對於AI版權物學習的看法
生成AI、知的財産権の学習なら原則規制せず 創作物は「人の発明」 - 日本経済新聞
日本內閣府確認生成式人工智慧(AI)及數據學習不受智慧財產權規範限制 | 國際通傳產業動態觀測
神無 kei
@kannakei
Thu, Jul 4, 2024 11:08 PM
>美國各大AI公司在AI學習過程中使用受版權保護的材料時堅持“合理使用”
許多主要的人工智慧公司以及各種公司和機構也發表了建議,其中包括 “ 人工智慧公司反對為受版權保護的內容付費”, 這是一個聳人聽聞的標題。 即使人工智慧公司使用內容來訓練他們的人工智慧,他們也不願意為訓練它的內容付費 。
其基礎是美國版權法中稱為「合理使用」的獨特概念。 如果滿足某些條件,受版權保護的資料可以在未經版權所有者許可的情況下重複使用。
生成AI、学習時の著作権使用料は“支払い義務なし”の可能性が有力に? (1/4)
神無 kei
@kannakei
Fri, Jul 5, 2024 12:32 AM
過去一些語言模型的版權爭議
主張AI模型《LLaMa》侵犯著作權而起訴Meta的作家們幾乎被駁回
AIの「LLaMa」が著作権を侵害したとしてMetaを訴えた作家らの主張がほとんど棄却される
Meta 承認用過盜版書訓練 AI,但拒絕賠償作者
據報導稱,Meta 正在討論『即使我們會被起訴,也要收集受版權保護的作品』,以加強AI資料
MetaがAI強化のため「訴えられてもいいから著作権で保護された作品をかき集めよう」と議論していたとの報...
神無 kei
@kannakei
Fri, Jul 5, 2024 12:37 AM
美國作家集體訴訟控告Meta生成式AI工具LLaMA著作侵權之程序判決出爐
神無 kei
@kannakei
Fri, Jul 5, 2024 12:41 AM
AI與畫家智財訴訟案例系列1:美國畫家控告Stability生成式AI工具著作侵權之程序判決出爐
載入新的回覆
我們將深入探討台灣為什麼需要建立自己的繁中語言模型。台大副教授陳縕儂教授將透過分析「兩個隱憂」,解釋為何這對台灣的未來發展至關重要。
第一是隱憂是,台灣的人口基數、市場比較小,國外的語言模型缺乏足夠量能照顧台灣,「比如說有一些情況,我們很明顯知道只要把這個資料放進去訓練,可能就會變好了,但就變成我們國家可能需要跟他們(國外)談合作,我們把這些東西提供給你們,你們把它放進去,讓這個模型變好。只是這樣子就會變成有核心技術掌握在別人手上,你自己要動的時候,每次都還要找這個專家來幫你調,就會比較麻煩。」
由長春集團、和碩聯合科技、長庚醫院、欣興電子、科技報橘聯合發起,與台大資工系、台大資管系及律果科技合作,在 NVIDIA 技術支援下訓練的「繁體中文專家模型開源專案 TAiwan Mixture of Experts(後簡稱 Project TAME )」,已正式對外發布,將以 Open Source 開放原始碼的形式,創造台灣的 AI 應用生態系。
另外附一些日本對於AI版權物學習的看法
日本內閣府確認生成式人工智慧(AI)及數據學習不受智慧財產權規範限制 | 國際通傳產業動態觀測
許多主要的人工智慧公司以及各種公司和機構也發表了建議,其中包括 “ 人工智慧公司反對為受版權保護的內容付費”, 這是一個聳人聽聞的標題。 即使人工智慧公司使用內容來訓練他們的人工智慧,他們也不願意為訓練它的內容付費 。
其基礎是美國版權法中稱為「合理使用」的獨特概念。 如果滿足某些條件,受版權保護的資料可以在未經版權所有者許可的情況下重複使用。
主張AI模型《LLaMa》侵犯著作權而起訴Meta的作家們幾乎被駁回
據報導稱,Meta 正在討論『即使我們會被起訴,也要收集受版權保護的作品』,以加強AI資料