個人用WB@觀察號
@wbsearch404
Mon, Dec 25, 2023 8:06 AM
27
11
【AI亂象】
@sophist4ever - 是說昨天去上AI課時,講師在講大型語言模型的訓練時,痛罵中研院罵了快二十...
嘻嘻誰抱著什麼目的輸入了些什麼資料去訓練現在市面上這些AI,你會知道嗎
【中研院之前釋出一個號稱強化繁體中文能力的大型語言模型,結果被發現竟然被訓練成了對岸的樣子,不時吐出簡體字與對岸用語,甚至說國慶日是十月一日。中研院被罵以後,立刻下架這個模型,還發了一篇聲明切割。
講師說中研院還有臉說這個案子只花了三十萬,明明就是去下載臉書的LLaMa模型,然後直接拿中國那邊的資料集進行訓練,給三萬塊都嫌多了,研究的態度非常草率。出事就推說是個人的研究,然後研究的目的竟然是「將明清人物的生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜。」講師痛罵人家發展AI是要上太空,中研院發展AI是要撿骨(以上為該講師的個人意見)。】
個人用WB@觀察號
@wbsearch404
Mon, Dec 25, 2023 8:06 AM
而且以網上目前中文資料來說文字量最大的範本就是中國喔,因為他們人數最多嘛^^
阿妮
@fenesou
Mon, Dec 25, 2023 9:20 AM
應該說中研院不去讓ai翻譯各國資料做一套屬於自己需求的資料庫,跑去買人家現成的。真的是很誇張
個人用WB@觀察號
@wbsearch404
Mon, Dec 25, 2023 9:36 AM
阿妮
: 就偷懶啊 跟那些以為有AI就能讓AI寫論文的人一樣WWW
吐司貓咪動力爐
@kerryting
Wed, Dec 27, 2023 1:55 AM
我看中研院之前的說明是抓台灣的網路資料,包括政府公開資料、教育部課綱內容、觀光局一些介紹臺灣的資料。我覺得可能太雜了,沒有一個個分析內容,所以誤放了一些東西吧。(雖然是不應該,但可以理解,因為我以前就做過類似的東西...這真的是要有大量人力和對資料熟晰的人,還要投入大量時間,不是說全部倒進去就好)
Day
@Daydreamer_27
Thu, Jan 11, 2024 1:19 AM
雖然跟主題不太相關,但這個也好離譜...
微博
個人用WB@觀察號
@wbsearch404
Thu, Jan 11, 2024 4:04 AM
Day
: 3Q 我來開一噗
載入新的回覆
【中研院之前釋出一個號稱強化繁體中文能力的大型語言模型,結果被發現竟然被訓練成了對岸的樣子,不時吐出簡體字與對岸用語,甚至說國慶日是十月一日。中研院被罵以後,立刻下架這個模型,還發了一篇聲明切割。
講師說中研院還有臉說這個案子只花了三十萬,明明就是去下載臉書的LLaMa模型,然後直接拿中國那邊的資料集進行訓練,給三萬塊都嫌多了,研究的態度非常草率。出事就推說是個人的研究,然後研究的目的竟然是「將明清人物的生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜。」講師痛罵人家發展AI是要上太空,中研院發展AI是要撿骨(以上為該講師的個人意見)。】
微博