天光已現 | pee
@peeplurk
Mon, Oct 9, 2023 1:22 AM
Mon, Oct 9, 2023 1:24 AM
7
2
這只是一個研究員的研究計畫,不用太在意。。。
這種個人計畫根本沒甚麼經費,只能找免錢的資料集。這些東西很貴的,你跟華視要電視新聞的稿子跟語音,至少要六百萬! (民視就很親民,幾年前只要三十萬,但現在應該會漲了吧)
而且這只會是用來訓練大語言模式的一小部分資料,要收集足夠的資料,好幾億元跑不掉,這本來就是國家級(或是google、Meta等級)的研究。。。
目前台灣國科會也在做,這種規格就是國家級的大語言模式,只希望他們做完後,可以把資料集開放讓其他學者來用,這樣其他學者就不需也不會去用中國提供的資料集
@davecode - Ref 中研院用簡轉中的資料集訓練完他們認為適用台灣的基礎模型,然後再派它去考中...
聽說名字要疊字的黑都醜醜
@JWU8
Mon, Oct 9, 2023 3:48 AM
如果用台文去練會不會比較好?
不過資料量可能更少
天光已現 | pee
@peeplurk
Mon, Oct 9, 2023 3:53 AM
對,而且該位對台文應該不熟
聽說名字要疊字的黑都醜醜
@JWU8
Mon, Oct 9, 2023 4:29 AM
搶過來做
載入新的回覆
這種個人計畫根本沒甚麼經費,只能找免錢的資料集。這些東西很貴的,你跟華視要電視新聞的稿子跟語音,至少要六百萬! (民視就很親民,幾年前只要三十萬,但現在應該會漲了吧)
而且這只會是用來訓練大語言模式的一小部分資料,要收集足夠的資料,好幾億元跑不掉,這本來就是國家級(或是google、Meta等級)的研究。。。
目前台灣國科會也在做,這種規格就是國家級的大語言模式,只希望他們做完後,可以把資料集開放讓其他學者來用,這樣其他學者就不需也不會去用中國提供的資料集
不過資料量可能更少