p/oc0m6v

tsaumond

@tsaumond

Mon, Apr 26, 2021 6:23 AM

1

突然想到，不知道有沒有project是訓練AI在辨識「畫風」的，人腦在識別一張圖是來自哪個繪師時感覺很難將理由化成文字來表現，AI在這方面應該能藉由參數化來達成吧

Ddavid

@DdavidCh

Mon, Apr 26, 2021 6:26 AM

辨別畫作真偽不靠藝術鑑定專家，科學家用AI來辨別

真偽判定有啦，分辨是誰好像沒有

tsaumond

@tsaumond

Mon, Apr 26, 2021 6:37 AM

本來想說能辨識真偽的話那辨識畫者應該也同理可辦到，不過辨識真偽靠的是筆觸的自然度啊，那跟辨識畫者的方向感覺不太一樣，不知能否通用

serusiya

@serusiya

Mon, Apr 26, 2021 7:32 AM

訓練AI少說都要上萬筆的訓練資料，沒有這麼多產的畫家吧

tsaumond

@tsaumond

Mon, Apr 26, 2021 7:35 AM

上面那個辨識真偽用的data是12名畫家的300幅畫作，感覺不用那麼多

Romulus

@romulus

說

Mon, Apr 26, 2021 7:48 AM

需求不夠大~~缺一個有錢宅或高手高高手宅~~

Ddavid

@DdavidCh

Mon, Apr 26, 2021 8:21 AM

serusiya : 要看情況，例如判斷筆觸這件事，同一幅畫裡面可以算作有很多筆資料

Romulus

@romulus

說

Mon, Apr 26, 2021 9:12 AM

反正 deep leaning 就是你的模型越精確需要的資料就越少越模糊就需要越多

Romulus

@romulus

說

Mon, Apr 26, 2021 9:13 AM

雖然我並不知道沒有label的資料要怎麼訓練有沒有人教一下 /dance

Ddavid

@DdavidCh

Mon, Apr 26, 2021 9:37 AM

Romulus : 我覺得你上面那段解釋的點有微妙的偏差XD
我覺得你在講testing，但更前面我們是在講training XD

Ddavid

@DdavidCh

Mon, Apr 26, 2021 9:37 AM

而且即便如此我還是覺得有點問題XD

Ddavid

@DdavidCh

Mon, Apr 26, 2021 9:39 AM

另外講到沒有label的資料怎麼訓練，這要先知道你學習目標是什麼才好回答。

Ddavid

@DdavidCh

Mon, Apr 26, 2021 9:59 AM

例如clustering，它就是學習出現的案例可以歸類為某些group，所以不需要一個正確答案，事實上也沒有正確答案。

Ddavid

@DdavidCh

Mon, Apr 26, 2021 9:59 AM

另外有像是active learning這種方式

Ddavid

@DdavidCh

Mon, Apr 26, 2021 10:06 AM

所以還是要看情況，沒Label要訓練來幹嘛用的，或者其實是有Label你沒注意到而已

Romulus

@romulus

說

Mon, Apr 26, 2021 2:41 PM

clustering是可以可是那就是你分類演算法要寫的夠好爸

Romulus

@romulus

說

Mon, Apr 26, 2021 2:43 PM

我是在講training啊比如聲音資料你直接丟wav進去的訓練速度比轉成frequency domain以後慢的太多也需要更多的資料

Romulus

@romulus

說

Mon, Apr 26, 2021 2:44 PM

做語者辨識的話給基頻比較高的權重也可以用更少的資料訓練出差不多的準確度但這些domain knowledge就是專家系統插手不是DL自己學

tsaumond

@tsaumond

Mon, Apr 26, 2021 2:54 PM

o０(明明是自己的噗卻洽入不能耶....)

tsaumond

@tsaumond

Mon, Apr 26, 2021 2:55 PM

但沒關係你們請繼續 XD

Ddavid

@DdavidCh

Mon, Apr 26, 2021 3:02 PM

Romulus : 你好像沒搞清楚，就有些問題需求本來就不是要求一個分類而只是聚合相似點啊，又像是有些問題是想找出重複出現的pattern而非用已知的pattern去分類（例：DNA序列），這些問題都是沒在分類的（或在某一步並不需要分類）

Ddavid

@DdavidCh

Mon, Apr 26, 2021 3:04 PM

然後Wav那個問題，跟資料筆數完全無關，那是做不做feature selection的差異，換句話說是在feature數量上的精煉，但是資料筆數並沒有變少

Ddavid

@DdavidCh

Mon, Apr 26, 2021 3:07 PM

DL其實有某些層的架構就有隱含feature selection，你要說完全是DL自己學到的，那得要再往上作一層學習架構的meta learning

Ddavid

@DdavidCh

Mon, Apr 26, 2021 3:13 PM

例如最常見的是影像辨識裡面的Convolution就在做feature selection，把大張圖變成多個小特徵的存在與否跟對應位置

Ddavid

@DdavidCh

Mon, Apr 26, 2021 3:22 PM

另外像你說到丟完整的Wav，資訊比較完整，然而發生overfitting或受到雜訊影響的機率也相對提高，所以篩選features即便損失了資訊，卻可能產生更精簡、更一般性的model，反而提升實際運用的正確性（即便在training的cross validation有可能看到變差一點）與效率

Romulus

@romulus

說

Tue, Apr 27, 2021 4:08 AM

Ddavid : 懂了所以不是做辨識嘛我就奇怪做辨識沒label是要學個刁

Romulus

@romulus

說

Tue, Apr 27, 2021 4:09 AM

應該說不是做「這個資料符合某種概念定義」的辨識

Romulus

@romulus

說

Tue, Apr 27, 2021 4:11 AM

然後資料筆數預設和資料各種variation涵蓋率同意吧你convolution有做以後DL自己會學到輪廓是什麼東西但是其實你可以直接把輪廓當作一種feature先抽好再餵食

Romulus

@romulus

說

Tue, Apr 27, 2021 4:12 AM

或是你連convolution也不做了硬幹理論上你資料夠大夠涵蓋 DL也可以自己學會什麼叫輪廓只是需要的資料涵蓋率不同層級

Romulus

@romulus

說

Tue, Apr 27, 2021 4:14 AM

所以我要講的是我記得DL理論上是只要你的資料夠大夠廣就可以用最簡單的模型學任何東西但是這不切實際所以運用各種domain knowledge 建立更好的模型可以極大幅度減少需要的資料量（和覆蓋率）

Ddavid

@DdavidCh

Tue, Apr 27, 2021 4:19 AM

雖然這麼說可能是沒錯，但這問題會跑到labeled data不足或者處理不完上XD
而且你這麼所謂最簡單模型，還是會遭遇決定層數跟hidden layer點數的問題

Ddavid

@DdavidCh

Tue, Apr 27, 2021 4:25 AM

決定數量太小，不夠學習及存儲資訊。決定太大容易有各種overfitting、梯度消失或梯度爆炸等問題

Romulus

@romulus

說

Tue, Apr 27, 2021 4:43 AM

叫DL自己調整訓練模型我記得好像有人在做 XD

Romulus

@romulus

說

Tue, Apr 27, 2021 4:44 AM

處理不完確實（看著顯示卡鬧劇）

Ddavid

@DdavidCh

Tue, Apr 27, 2021 12:16 PM

Romulus : 有啊，就Meta learning，但那個訓練量整個往上跳升XD

Romulus

@romulus

說

Tue, Apr 27, 2021 2:29 PM

~~最後把人類優化掉，電影標準劇本~~

tsaumond

@tsaumond

Tue, Apr 27, 2021 2:46 PM

~~魔鬼終結者來了~~