p/3g0dkanl51

@davecode

Thu, Jul 4, 2024 7:07 AM

116

73

我們將深入探討台灣為什麼需要建立自己的繁中語言模型。台大副教授陳縕儂教授將透過分析「兩個隱憂」，解釋為何這對台灣的未來發展至關重要。

第一是隱憂是，台灣的人口基數、市場比較小，國外的語言模型缺乏足夠量能照顧台灣，「比如說有一些情況，我們很明顯知道只要把這個資料放進去訓練，可能就會變好了，但就變成我們國家可能需要跟他們（國外）談合作，我們把這些東西提供給你們，你們把它放進去，讓這個模型變好。只是這樣子就會變成有核心技術掌握在別人手上，你自己要動的時候，每次都還要找這個專家來幫你調，就會比較麻煩。」

DaveC

@davecode

Thu, Jul 4, 2024 7:07 AM

第二個隱憂是，如果台灣不發展自己的繁體中文語言模型，很多企業可能就會開始採用中國的語言模型，而因為不知道中國語言模型訓練了什麼資料，或者是做了哪些調整，導致最後的結果可能不符合台灣的生活型態，「大部分中國想傳遞的理念和價值觀可能會轉換成比較單一的，但台灣其實是擁有非常多元價值觀的一個環境。」

由長春集團、和碩聯合科技、長庚醫院、欣興電子、科技報橘聯合發起，與台大資工系、台大資管系及律果科技合作，在 NVIDIA 技術支援下訓練的「繁體中文專家模型開源專案 TAiwan Mixture of Experts（後簡稱 Project TAME ）」，已正式對外發布，將以 Open Source 開放原始碼的形式，創造台灣的 AI 應用生態系。

神無 kei

@kannakei

Thu, Jul 4, 2024 9:21 AM

另外日本這邊已經不知道看到幾個日本語特化的AI語言模型要製作或是已經發布了...

総務省とKDDI､日本語特化の生成AI開発へ使い勝手向上 - 日本経済新聞

イライザ、日本語特化ＡＩモデル開発性能「GPT-４」超え - 日本経済新聞

国内最大級1000億パラメーターのAIモデル、ベンチャー開発 “幻覚”少なく

DaveC

@davecode

Thu, Jul 4, 2024 7:35 PM

神無 kei : 謝謝分享日本 AIGC 方面新聞報導

神無 kei

@kannakei

Thu, Jul 4, 2024 11:08 PM

利用日本超級電腦「富嶽」學的「純國產」LLM現可在GitHub和Hugging Face上免費獲取

富岳で学習した“純”国産LLMが、GitHub・Hugging Faceで無償公開

Fugaku-LLM/Fugaku-LLM-13B · Hugging Face

另外附一些日本對於AI版權物學習的看法

生成AI、知的財産権の学習なら原則規制せず創作物は「人の発明」 - 日本経済新聞

日本內閣府確認生成式人工智慧（AI）及數據學習不受智慧財產權規範限制 | 國際通傳產業動態觀測

神無 kei

@kannakei

Thu, Jul 4, 2024 11:08 PM

>美國各大AI公司在AI學習過程中使用受版權保護的材料時堅持“合理使用”
許多主要的人工智慧公司以及各種公司和機構也發表了建議，其中包括 “ 人工智慧公司反對為受版權保護的內容付費”，這是一個聳人聽聞的標題。即使人工智慧公司使用內容來訓練他們的人工智慧，他們也不願意為訓練它的內容付費。

其基礎是美國版權法中稱為「合理使用」的獨特概念。如果滿足某些條件，受版權保護的資料可以在未經版權所有者許可的情況下重複使用。