p/pewlj1

@peeplurk

Mon, Oct 9, 2023 1:22 AM

Mon, Oct 9, 2023 1:24 AM

7

2

這只是一個研究員的研究計畫，不用太在意。。。

這種個人計畫根本沒甚麼經費，只能找免錢的資料集。這些東西很貴的，你跟華視要電視新聞的稿子跟語音，至少要六百萬! (民視就很親民，幾年前只要三十萬，但現在應該會漲了吧)

而且這只會是用來訓練大語言模式的一小部分資料，要收集足夠的資料，好幾億元跑不掉，這本來就是國家級(或是google、Meta等級)的研究。。。

目前台灣國科會也在做，這種規格就是國家級的大語言模式，只希望他們做完後，可以把資料集開放讓其他學者來用，這樣其他學者就不需也不會去用中國提供的資料集

@davecode - Ref 中研院用簡轉中的資料集訓練完他們認為適用台灣的基礎模型，然後再派它去考中...

聽說名字要疊字的黑都醜醜

@JWU8

Mon, Oct 9, 2023 3:48 AM

如果用台文去練會不會比較好？
不過資料量可能更少

天光已現 | pee

@peeplurk

Mon, Oct 9, 2023 3:53 AM

對，而且該位對台文應該不熟

聽說名字要疊字的黑都醜醜

@JWU8

Mon, Oct 9, 2023 4:29 AM

搶過來做