Eji
@ejiwarp
Fri, Sep 9, 2022 6:20 AM
Sat, Sep 10, 2022 5:01 AM
15
8
AI真的只是在加加減減做內插:
WaifuDiffusion
草 on Twitter
Eji
@ejiwarp
Sat, Sep 10, 2022 3:19 AM
Sat, Sep 10, 2022 5:02 AM
Eji
@ejiwarp
Sat, Sep 10, 2022 4:48 AM
Sat, Sep 10, 2022 4:53 AM
以下 轉回 Reply for
https://www.plurk.com/...
Eji
@ejiwarp
Sat, Sep 10, 2022 4:48 AM
Sat, Sep 10, 2022 4:52 AM
LAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL ...
> LAION2B有 23億組圖文對,現在9月新推出的LAION5B有50億,圖檔有共計一組384分割共240TB,與一組224分割共80TB
對抗AI業界能保護的是繪師群體的經濟價值,問題是繪師生財能力(能付錢來汙染的能力)就比不過大家對AI商業價值的期待咩。
Eji
@ejiwarp
Sat, Sep 10, 2022 4:49 AM
Sat, Sep 10, 2022 5:07 AM
AI真正的問題是對「透過對資料庫的學習能理解的知識極為有限」,畢竟AI做的事情只是在幾個data source得到的素材點之間做內差而已。
所以比方說(上面)這個場合,很容易就會被相似度拉走,結果脖子接到胸口之類。
它實際上還是離不開那個圖庫,所以構圖好其實是來自圖庫的。
但是它不太容易學到肢體的細節、物件幾何的自然度等等,模型怎麼改良仍然有限,頂多從別的模型帶過來:事實上Stable Diffusion的臉想自然,目前靠的是加上GFPGAN。
Eji
@ejiwarp
Sat, Sep 10, 2022 4:52 AM
Sun, Sep 18, 2022 2:28 AM
GitHub - harubaru/waifu-diffusion: stable diffusion ...
hakurei/waifu-diffusion · Hugging Face
Danbooru2021
Waifu Diffusion是把Stable Diffusion拿Danbooru dataset (五萬六千張圖) 來做微調的版本,可以直接抽換checkpoint檔案之後直接生效,缺點是生出來的東西會有點二次元,對一般用途而言泛用性大幅劣化;但是對亞洲繪師來說應該是個福音,因為其實不會畫的人拿到生出來的東西沒辦法直接用(都怪怪的),至少要會套線稿透過變形工具修圖;但是已經能作業的繪師相對地容易得到工具boost。
三腳貓型地痞rice_b
@rice_b
Sat, Sep 10, 2022 5:14 AM
「其實不會畫的人拿到生出來的東西沒辦法直接用」這句要加重點
三腳貓型地痞rice_b
@rice_b
Sat, Sep 10, 2022 5:14 AM
跟alphago要有黃博士一樣,你做算法的人不會下,下不好,做出來的算法怎麼下棋
三腳貓型地痞rice_b
@rice_b
Sat, Sep 10, 2022 5:15 AM
要是直接找樊輝棋士,他也沒辦法跟你說,你的算法哪裡做錯應該改
Eji
@ejiwarp
Sat, Sep 10, 2022 5:19 AM
三腳貓型地痞rice_b
: 也不見得是這樣:AlphaGo還在用人類的棋譜,AlphaGo Zero已經導入大規模搜索生成盤面之後強化學習的手法,到AlphaZero的時候推展到其他類型的情報可視對弈遊戲。
@ejiwarp on Plurk
但是使用者基本上是會受惠的,在上一個世代的棋士難以應付AI甚至出現拿AI作弊的醜聞,整個棋界因為AI震撼而迷惘的當下,藤井聰太出現了。
Eji
@ejiwarp
Sat, Sep 10, 2022 5:20 AM
事實上日本將棋聯盟對AI的預想完全是正確的,才會有電王戰一系列的活動;只是不見得整個組織都能從上到下一以貫之。
事實上經過了AI的洗禮,日本將棋的粉絲是增加的,也出現了新一代適應AI的棋士。
Eji
@ejiwarp
Sat, Sep 10, 2022 5:22 AM
Sat, Sep 10, 2022 5:32 AM
也就是說,AI業界特別容易有的狀況就是,做演算法的人本身其實不見得非常懂,因為人類得到的知識對演算法直接的幫助確實不大,這個從語音合成、醫療資訊分析與挖掘、兩人資訊完全對弈,到圖像文字生成,基本上都是類似的:圖像部分這些人很可能有粉絲水平的能力幫助資訊整理,但是頂級人才,比方說繪師總是得外求。
三腳貓型地痞rice_b
@rice_b
Sat, Sep 10, 2022 5:44 AM
謝謝指教,您這邊的金句連發啊「頂級繪師總是得外求。」
Eji
@ejiwarp
Sat, Sep 10, 2022 5:50 AM
Sat, Sep 10, 2022 5:53 AM
比方說,蘋果的產品團隊就是針對自家的宣傳動畫團隊量身打造啊,所以頂尖的動畫團隊在workflow上需要什麼,Macbook產品最後就變成什麼樣子了。而做產品的時候就需要貼近標的領域的團隊。
Eji
@ejiwarp
Sat, Sep 10, 2022 5:54 AM
Sun, Sep 11, 2022 1:33 AM
但是open source的東西通常做為產品這環會比較弱,因為通常出發點是綁在知識普及上的。
比方說StabilityAI團隊的目標是把圖文生成AI給下放到民間,他們就會遇到如果沒有產品的話怎麼回收開發成本:Stable Diffusion的訓練成本(運算時間)大約是60萬美金;
Emad on Twitter
問題是和綁在雲端後面的Midjourney不一樣的是,open後的Stable Diffusion看起來社群不斷地做出類似DALL-E之類大廠推出的新功能,但是看起來市場沒有對Stability AI團隊本身有經濟支持,而自家DreamStudio看起來不像有賺到那麼多,現在不知道他們怎麼回收那個cost....
desnet.icc
@desnet
Sat, Sep 10, 2022 2:11 PM
Danboory Dataset 太神辣!
Eji
@ejiwarp
Sat, Sep 10, 2022 2:14 PM
desnet.icc
: 老實說我覺得Trinart應該會強很多
三腳貓型地痞rice_b
@rice_b
Sat, Sep 10, 2022 4:13 PM
Eji
: 謝謝推薦Trinart ai,我剛剛開始跟蹤他們的 twitter,每張圖都很驚豔!
Eji
@ejiwarp
Sat, Sep 10, 2022 4:18 PM
三腳貓型地痞rice_b
: 他們準備的dataset比較切合角色需求,標記也是日文,很適合這個圈子,所以其實比較適合的操作是在Stable Diffusion和Waifu Diffusion練習過後去用Trinart然後回來local用手邊的Stable Diffusion做outpaint之類
Eji
@ejiwarp
Sun, Sep 11, 2022 2:27 AM
Sun, Sep 18, 2022 2:29 AM
ただのワニ💰🐊 on Twitter
ただのワニ💰🐊 on Twitter
三腳貓型地痞rice_b
@rice_b
Sun, Sep 11, 2022 2:37 AM
可惡啊,我的電腦上看起來太糊了
Eji
@ejiwarp
Sun, Sep 11, 2022 11:48 AM
Sun, Sep 11, 2022 11:52 AM
三腳貓型地痞rice_b
: 沒這回事,她能生出來的東西基本上就是那樣。
輸出要清晰基本上是文意的事情,你可以試著讓它取完random seed之後從那邊花時間生個幾百張,你就會看到上面那種趨勢:
1. 它其實有幾個特徵就像波浪上下一樣,然後每幾張圖就會有一種特徵出現,就像波浪重合變成大浪,清晰度就是那樣來的
2. 越多文義點越慢,某些關鍵字拿掉速度會快50%~100%
3. Stable Diffusion基本上要10GB左右的記憶體,這個場合下能跑512x512~長邊拉長一點點,加入一些hack可以減低記憶體消費,但是只能讓它同時跑一些類似ESRGAN的放大工具,可是同時跑又會變慢,想要真的拉高解析度到1024x1024以上你會需要24GB的RTX3090。
Eji
@ejiwarp
Sun, Sep 11, 2022 11:52 AM
Sun, Sep 11, 2022 11:58 AM
也就是說你上面看到的大圖都是放大過的,不然就是文意剛好骰到比較清晰的東西。
要骰到漂亮的東西,目前基本戰略就是輸出一堆然後去挑圖,我現在會骰個100~200張去挑,我相信那些出漂亮圖的人也都骰過相當的量。
所以讓你免費用的AI廠商其實不怕,因為用幾張沒辦法得到什麼東西,它沒有真的能對圖庫做深度探索,能高明地符合現況的探索工具;但是我們扔進去學習的圖已經這麼多了,顯示限制它的不是資料量,而是圖文連接的資料品質,而這目前還沒有找到更好的方法,這也是我認為目前Trinart還有Trinart Stable Diffusion會好過Waifu Diffusion的主因。
Eji
@ejiwarp
Sun, Sep 11, 2022 1:00 PM
Rebis on Twitter
三腳貓型地痞rice_b
@rice_b
Sun, Sep 11, 2022 1:14 PM
我不會畫畫,跟看alphago演進一樣,是驚訝技術的進步速度
Eji
@ejiwarp
Fri, Sep 16, 2022 1:27 PM
三腳貓型地痞rice_b
: 整個東西真正讓人驚訝的還是回到CLIP分類器,因為現在webui其實有丟圖進去讓CLIP認識「抽出咒文」的功能,所以你可以反覆地利用CLIP本身去詳盡你創作的認識。
這個其實才是真正的威力。
三腳貓型地痞rice_b
@rice_b
Fri, Sep 16, 2022 1:31 PM
Eji
: 謝謝,我第一次聽到CLIP,學到新東西了
Eji
@ejiwarp
Fri, Sep 16, 2022 1:31 PM
Sun, Sep 18, 2022 2:31 AM
三腳貓型地痞rice_b
: 比方說 ぽーのさん的這張圖
@ejiwarp on Plurk
扔進去用LAION訓練的CLIP裡面可以得到
”a woman with blue hair and a blue dress is talking on a cell phone with a smile on her face, by NHK Animation”
* 這邊其實錯了,webui用的是google的BLIP
Eji
@ejiwarp
Fri, Sep 16, 2022 1:32 PM
Fri, Sep 16, 2022 1:33 PM
誤認就算了,真的認出來就誇張了;但是這已經是一般人認識的水準。
你把這串反向輸入加上miku的特徵
你現在知道,透過LAION2B,它真的知道手上有手機是什麼意思。
三腳貓型地痞rice_b
@rice_b
Fri, Sep 16, 2022 1:36 PM
謝謝!原來是映射文字描述與特定的「特徵」,clip論文中的圖形編碼器指的是這個啊
Eji
@ejiwarp
Fri, Sep 16, 2022 1:39 PM
Sun, Sep 18, 2022 1:35 AM
三腳貓型地痞rice_b
: 透過對LAION2B以CLIP得到的那個特徵識別空間具備的圖像認識能力才是這個AI真正的價值,跳過CLIP只用tag去叫圖的話,其實Stable Diffusion帶來的圖形合成很傳統很單純,所以其實起手式用抽圖對話才能感受到Stable Diffusion的雙向能力。
@ejiwarp - 回頭看CLIP
三腳貓型地痞rice_b
@rice_b
Sun, Sep 18, 2022 1:11 AM
Eji
: 回來謝謝你介紹了clip的這個概念,我剛剛看到底下這篇zhihu上的回應,這篇回答用幾句話說明CLIP的重點在於,解決「圖片庫」「自動標註」的難題,而且可以用nlp的方式去標註圖形
如何评价OpenAI最新的工作CLIP:连接文本和图像,zero shot效果堪比ResNet50? -...
三腳貓型地痞rice_b
@rice_b
Sun, Sep 18, 2022 1:14 AM
然後我要說的是,你給我啟發,Andrej karpathy 在2021的演講 auto labeling,語焉不詳的,其實他們團隊做了什麼工作,祕密就是clip
難怪他們今年把人工標註的團隊解僱了一百多個人
三腳貓型地痞rice_b
@rice_b
Sun, Sep 18, 2022 1:15 AM
接著等著看,其他的ADAS開發業者,何時發現這個祕密,而且實做出來
三腳貓型地痞rice_b
@rice_b
Sun, Sep 18, 2022 1:16 AM
我猜想是不會,因為他們都搞錯目標,跑去開發lidar與影像的感測器前融合,那是錯誤的技術路徑
三腳貓型地痞rice_b
@rice_b
Sun, Sep 18, 2022 1:18 AM
我也發現,今年Andrej karpathy離開特斯拉ai團隊的原因也很清楚了,他的任務已完成,剩下的是adas團隊,去最佳化算法輸出的工作,應該要有的算法都開發出來了
三腳貓型地痞rice_b
@rice_b
Sun, Sep 18, 2022 1:20 AM
Eji
: 你給我的啟發點,就是從現有的圖,萃取出對應的文字敘述,然後反向輸入,產生新的圖像,看看產生的結果,是不是都有「手機」這個概念,發現有,這就是個有效的auto label,因為這個產生label 的工作自動化了
三腳貓型地痞rice_b
@rice_b
Sun, Sep 18, 2022 1:22 AM
我們不需要重新訓練模型,而是只要去創造新的「分類」,這個產生「label」的工作能自動化
三腳貓型地痞rice_b
@rice_b
Sun, Sep 18, 2022 1:28 AM
謝謝你
Eji
: 謝謝你,我花了整整兩年的時間,想要知道 邪教的FSD beta 的祕密,到這篇為止,大致上我看到了整個拼圖,而不是一場迷霧
Eji
@ejiwarp
Sun, Sep 18, 2022 1:59 AM
Sun, Sep 18, 2022 2:04 AM
三腳貓型地痞rice_b
: 你嘛太誇張_A_
基本上機械學習領域半年一個世代兩年就四個世代了。何況CLIP現在知道是很巨大的應用,但是當時其實大家反應因為很多人說過zero-shot結果反而當下被一部分人看輕,你上頭引的知乎那邊也有業界人士這樣講,我記得他是Yolox的leader吧。
技術途徑其實可能要過一陣子(比方說一兩代)才知道關鍵技術能起多大的作用,拿去通靈其實是有點誇張了,何況是少數人可以決定的私營企業。
三腳貓型地痞rice_b
@rice_b
Sun, Sep 18, 2022 2:03 AM
Eji
: 你說的對,現在發展太快,去年2021的6月,他說他們設置211個trigger來收集新的行駛路況,現在大概少說幾千個,而最大的優勢,就是這個trigger是nlp,是工程師們認為有必要,就能新增,然後不須整個推理系統重新訓練
三腳貓型地痞rice_b
@rice_b
Sun, Sep 18, 2022 2:05 AM
這也是為甚麼dojo的初步試驗,一開始拿來做mini GPT,因為上述這些公司的努力,讓adas本來只是純粹的計算機視覺,用人去篩一年每輛車一萬英哩的行駛數據,現在有了新方法,可以用算力農場去篩
Eji
@ejiwarp
Sun, Sep 18, 2022 2:15 AM
Sun, Sep 18, 2022 2:32 AM
補充一下上面的東西
BLIP的回覆是
”a girl with blue hair and a blue dress with gold accents and a blue wig and a blue dress with gold accents, ”
Eji
@ejiwarp
Sun, Sep 18, 2022 2:19 AM
Sun, Sep 18, 2022 2:32 AM
加上圖做img2img固定構圖骰的時候就相對精確
最後得到這張
Eji
@ejiwarp
Sun, Sep 18, 2022 2:22 AM
Sun, Sep 18, 2022 2:23 AM
其實骰的過程一樣,確實關鍵在文意選擇去擴大認知,去掉CLIP(和BLIP)的話後面圖的部分也是老技術,可以看得出來構圖是四處拉來的,但是也因為四處拉來所以也不是什麼版權,畢竟對人而言要的是材料去朝結果走,類似的pose都可以,也就是說CLIP讓老技術整個活起來了。
Eji
@ejiwarp
Tue, Sep 20, 2022 11:24 AM
>要做得到這點不就得和LAMBA一樣大了?
才剛講完就打臉了
Large scale openCLIP: L/14, H/14 and g/14 trained on...
LAION on Twitter
Robust fine-tuning of zero-shot models
三腳貓型地痞rice_b
@rice_b
Tue, Sep 20, 2022 11:52 AM
很快我們會看到一堆人在發各種clip的論文,這概念已經證明真的很好用
Eji
@ejiwarp
Fri, Sep 23, 2022 11:33 AM
Fri, Sep 23, 2022 12:01 PM
三腳貓型地痞rice_b
: 在CLIP發表之後其實CLIP的論文已經發過很多了,但是真正有價值的應該是最近這篇:
Robust fine-tuning of zero-shot models
WiSE-FT
Eji
@ejiwarp
Fri, Sep 23, 2022 11:36 AM
Fri, Sep 23, 2022 12:05 PM
GitHub - mlfoundations/open_clip: An open source imp...
這個是華盛頓大學、StabilityAI (就是Stable Diffusion)、LAION合作的CLIP開源實作,然後在擴大資料後他們把現在的LAION5B的數據整個做成OpenCLIP的模型,並且在9/16發表,是目前圖像分類器的SOTA,並且model是公開的。
Large scale openCLIP: L/14, H/14 and g/14 trained on...
Models - Hugging Face
Eji
@ejiwarp
Fri, Sep 23, 2022 11:40 AM
Fri, Sep 23, 2022 12:11 PM
要注意的是這篇論文是很早期就跟著CLIP本家發表,只是準備更大的圖像資料庫去擴大需要這麼多時間;
> [Submitted on 4 Sep 2021 (v1), last revised 21 Jun 2022 (this version, v3)]
LAION on Twitter
而且說真的學術上的價值相對於CLIP本家並不大,WiSE-FT的論文主題其實是拿CLIP同等性能的OpenCLIP來做fine-tuning,但是驗證用的OpenCLIP模型放出來趴趴走這點是有差的。
Eji
@ejiwarp
Fri, Sep 23, 2022 12:03 PM
Fri, Sep 23, 2022 12:07 PM
於是現在可以用OpenCLIP去引導Stable Diffusion。
如果有在用的話基本上會注意到Stable Diffusion在輸入適當文言有一定的複雜度需要經驗,而且也有不少限制;上面也說過跨過CLIP這一段之後就回到相對平凡的GAN morphing;
但是透過高精度的分類識別去進一步引導Stable Diffusion,特別是這兩個使用的是同一個資料庫的時候,可以預期敘述可以更精確地傳達。
Suraj Patil on Twitter
比方說lexica目前透過實作OpenCLIP,提供了從照片輸入去搜尋相近Stable Diffusion咒文的服務
Sharif Shameem on Twitter
Eji
@ejiwarp
Fri, Sep 23, 2022 12:15 PM
> CLIP 雖然強大,還是有弱點的。
> 對於一些抽象任務或是系統性任務它就失敗了,比方說計算圖片裡面有幾個物體,或是問它圖片裡面最接近的兩台車有多近,它的答案基本上只比亂猜好一點。還有一些針對特定領域的 fine-grained classification 問題的表現也不好,比方說問它這台車的車型,它就做不好。
> 還有,如果是 pre-training 的 dataset 裡面缺乏的領域,那就真的做得不大好,比方說他雖然能做 OCR,但是 pretrain dataset 沒有 MNIST,給他 MNIST 的手寫文字辨識,他只能做到 88%,一般特定 model 就可以做到 99.75%。
三腳貓型地痞rice_b
@rice_b
Fri, Sep 23, 2022 4:15 PM
Eji
: 謝謝!真是詳細的分析,ocr不行這點會是個很大的麻煩,因為在adas領域,有一大堆的道路標誌需要認文字,特別是「外國語文標示」,如果一個adas去到外國就無法認標誌,那我們可以想像,在歐盟區會遇到多大問題
Eji
@ejiwarp
Fri, Sep 30, 2022 6:50 AM
@nakurubox - 會為AI繪圖說好話,說大家不用擔心繪師會被AI取代的人 都是不見棺材不會流淚的...
「任何有專業的職業都沒辦法和data driven對抗,只能不斷納入之後然後去設法拉人支持,所以真正有效的其實是每個人都變成直播主和藝人,然後都被數字綁住。
大家都在講技術之類的事情,但是會這樣討論技術就是沒有真的下去碰一下現在的AI;基本上現在透過AI在做的事情,其實是自然語言/關鍵字搜尋和轉蛋。
也就是說理論上如果「所有活著的繪師」都抵制的話那AI就會沒有圖可以用;但是從Vtuber的經驗我們知道,抵制的人多,反而讓剩下來「支持AI」的人會變得更有名。
這一串最大最討厭的事情是,反抗AI和反抗社群一樣會降低繪師的曝光率,讓自己被隔離。」
Eji
@ejiwarp
Fri, Sep 30, 2022 6:50 AM
「因為AI不是字面上那個學習來的,AI真的在做的只有複製貼上內插。它內部其實發生的事情真的就是被轉貼淹沒,從這個觀點來看繪師是被人們低劣的審美觀打敗的,除非繪師自己能戰勝孤獨,不被孤芳自賞這個評語打敗。
不然只要在意他人眼光就一定會輸給AI,畢竟一個人怎麼可能打贏兩千年和50億張圖片」
Eji
@ejiwarp
Fri, Sep 30, 2022 6:50 AM
「任何狀況
不碰新的工具
這件事情一定是威脅啊。
我現在講的事情是繪師至少碰一下AI,和它保持距離只會剝奪自己的競爭力。
很多人都一直被終結者迷惑了,只有人才會殺人而已。
圍棋界象棋界不一樣的事情是,兩方完全資訊並且有輸贏的狀況,可以完全用亂數產生得到局面之後讓類神經網路去學習輸贏本身,然後透過純AI對弈去做強化學習,也就是資訊可見/有輸贏這件事情的話AI學習時間會比較短。
但是對人而言,圍棋AI變成可以在更短的時間內探索更大的可能性,因為它等於是把許多局面消化過之後和人對下,人會在很短的時間內得到更多知識,因為不論電腦下贏人或者電腦下贏電腦都沒有意義,因為棋賽涉及獎金就是人對人的事情。」
Eji
@ejiwarp
Fri, Sep 30, 2022 6:51 AM
「在有AI的狀況下其實獨立創作者可以做的量能變大了,所以變得可以租用運算量探索更多可能性並且處理更多素材;但是需要決定作品需要的市場嗅覺和討喜程度的時間差都變得更短,因為AI學習完全沒辦法決定這件事情,從資料科學的觀點放入學習偏差只會讓AI性能降低。」
孩雅多
@hayatos
Fri, Sep 30, 2022 6:56 AM
還是老話一句,就算善意理性的開發者被你情緒綁架,也只是方便了中國人毫無競爭阻礙地攻城掠地~
三腳貓型地痞rice_b
@rice_b
Fri, Sep 30, 2022 7:31 AM
每次看到您的發言都覺得正中紅心:『我覺得會比這個更慘,任何有專業的職業都沒辦法和data driven對抗』
三腳貓型地痞rice_b
@rice_b
Fri, Sep 30, 2022 7:31 AM
然後疑惑為什麼別人都沒看出來這個結局
三腳貓型地痞rice_b
@rice_b
Fri, Sep 30, 2022 7:32 AM
我看今天河道上出現的那個巨乳精靈生成圖,就是這樣想啊,他一次可以出一千張讓業主挑,你跟他拼看看啊?其他的手繪不是等著失業?
三腳貓型地痞rice_b
@rice_b
Fri, Sep 30, 2022 7:33 AM
所以繪師要不要趕快去學ai呢?至少理解這個工具如何加快創作速度?
孩雅多
@hayatos
Fri, Sep 30, 2022 7:38 AM
人力撿別和專業知識仍然對目前的咒文詠唱有很大的幫助,也能讓轉蛋的效率快速提升,所以繪師其實是站在一個能最好運用AI的位置上,只是大多數根本不去看也不想接受現實
孩雅多
@hayatos
Fri, Sep 30, 2022 7:39 AM
真正會讓這些繪師恐懼的,就是學會AI的繪師啦XD
Eji
@ejiwarp
Fri, Sep 30, 2022 7:50 AM
三腳貓型地痞rice_b
: 你也不是這樣挖洞給我跳....
「任何有專業的職業和data driven沒辦法對抗」是因為data driven的重點本身是透過過去的結果和生成模型做重建,所以如果專業職業者本身work需要從頭來,而不是透過工具消化掉某些重複過程的話,那真的會很辛苦。
Eji
@ejiwarp
Fri, Sep 30, 2022 7:53 AM
Fri, Sep 30, 2022 7:53 AM
三腳貓型地痞rice_b
: 其次是
> 他一次可以出一千張讓業主挑,你跟他拼看看啊?
這句也不對,首先是AI在這個過程其實應該是雙方共同用來探索IDEA的東西,因為量已經不是問題的話那就變成勞力要放在刀口上,繪師接案通常都會有Rework限制,因為業主通常外行,經常性的修改常常只是溝通成本;但是實際上業主要的是提高單一的work的效果,而不是給他一千張,他會付一千張的錢嗎?光過濾就是個問題,我就算自己生一千張我也知道只有幾十張是可以用的,而實際上要成品的可能就是在這幾十張堪用的set裡面去挖掘idea。
Eji
@ejiwarp
Fri, Sep 30, 2022 7:57 AM
Fri, Sep 30, 2022 7:58 AM
三腳貓型地痞rice_b
: 當然表達歸表達,最終結論都是「至少去碰一下工具看看能不能得到一點加分的」,當年工業革命變成資本家和工人的對抗才會有反抗運動,但是這次其實不是資本家與AI去和繪師對抗,因為版權其實是很強大的權力,所以最後手上有版權的繪師還是會把如何能產生版權這件事情考慮進去,而目前各國立法都是AI不產生版權,除非使用者本人把自己的版權畫放進去讓它學習、然後出來再加筆這種模式,最能替自己提升生產力。
所以確實是那句「排斥AI的繪師最害怕的是其他學會AI的繪師」,AI工程端其實也是希望繪師看怎麼學。
Eji
@ejiwarp
Fri, Sep 30, 2022 8:10 AM
Fri, Sep 30, 2022 8:13 AM
三腳貓型地痞rice_b
:
Coco 🥜 (✦Commission(Closed)✦) on Twitter
那串真正有意義的其實是這個
會用AI的繪師在探索的過程裡面發現「市場其實對工筆仍然有一定比例的期待」「對官能仍然習慣重口味」
=加總之後變成retro-future,維多利亞風的美術但是都是現代爆乳;但是很明顯地除了第一個挖到這個的人之外後面也沒辦法靠這賺錢。
所以AI嘗試的成本變低確實變成有機會變成市場風向球,甚至是下水道採樣_A_
Eji
@ejiwarp
Tue, Oct 4, 2022 5:37 AM
@soruly - AI要取代創作還有一大段路要走
> 它真正的重點是透過CLIP演算法大量收集與分類各種圖片的能力,也就是說它相比以前是個很容易成長的大圖庫,所以理論上可以更肆無忌憚地收集之後,那就相對容易覆蓋輸入需求(=用來混合的材料多)。
但是跨過自然語言處理之後,後面的圖片混合是傳統的擴散內插,所以你會看到seed跳躍的狀況。
GitHub - yownas/seed_travel: Small script for AUTOMA...
載入新的回覆
對抗AI業界能保護的是繪師群體的經濟價值,問題是繪師生財能力(能付錢來汙染的能力)就比不過大家對AI商業價值的期待咩。
所以比方說(上面)這個場合,很容易就會被相似度拉走,結果脖子接到胸口之類。
它實際上還是離不開那個圖庫,所以構圖好其實是來自圖庫的。
但是它不太容易學到肢體的細節、物件幾何的自然度等等,模型怎麼改良仍然有限,頂多從別的模型帶過來:事實上Stable Diffusion的臉想自然,目前靠的是加上GFPGAN。
Waifu Diffusion是把Stable Diffusion拿Danbooru dataset (五萬六千張圖) 來做微調的版本,可以直接抽換checkpoint檔案之後直接生效,缺點是生出來的東西會有點二次元,對一般用途而言泛用性大幅劣化;但是對亞洲繪師來說應該是個福音,因為其實不會畫的人拿到生出來的東西沒辦法直接用(都怪怪的),至少要會套線稿透過變形工具修圖;但是已經能作業的繪師相對地容易得到工具boost。
事實上經過了AI的洗禮,日本將棋的粉絲是增加的,也出現了新一代適應AI的棋士。
比方說StabilityAI團隊的目標是把圖文生成AI給下放到民間,他們就會遇到如果沒有產品的話怎麼回收開發成本:Stable Diffusion的訓練成本(運算時間)大約是60萬美金;
問題是和綁在雲端後面的Midjourney不一樣的是,open後的Stable Diffusion看起來社群不斷地做出類似DALL-E之類大廠推出的新功能,但是看起來市場沒有對Stability AI團隊本身有經濟支持,而自家DreamStudio看起來不像有賺到那麼多,現在不知道他們怎麼回收那個cost....
輸出要清晰基本上是文意的事情,你可以試著讓它取完random seed之後從那邊花時間生個幾百張,你就會看到上面那種趨勢:
1. 它其實有幾個特徵就像波浪上下一樣,然後每幾張圖就會有一種特徵出現,就像波浪重合變成大浪,清晰度就是那樣來的
2. 越多文義點越慢,某些關鍵字拿掉速度會快50%~100%
3. Stable Diffusion基本上要10GB左右的記憶體,這個場合下能跑512x512~長邊拉長一點點,加入一些hack可以減低記憶體消費,但是只能讓它同時跑一些類似ESRGAN的放大工具,可是同時跑又會變慢,想要真的拉高解析度到1024x1024以上你會需要24GB的RTX3090。
要骰到漂亮的東西,目前基本戰略就是輸出一堆然後去挑圖,我現在會骰個100~200張去挑,我相信那些出漂亮圖的人也都骰過相當的量。
所以讓你免費用的AI廠商其實不怕,因為用幾張沒辦法得到什麼東西,它沒有真的能對圖庫做深度探索,能高明地符合現況的探索工具;但是我們扔進去學習的圖已經這麼多了,顯示限制它的不是資料量,而是圖文連接的資料品質,而這目前還沒有找到更好的方法,這也是我認為目前Trinart還有Trinart Stable Diffusion會好過Waifu Diffusion的主因。
這個其實才是真正的威力。
扔進去用LAION訓練的CLIP裡面可以得到
”a woman with blue hair and a blue dress is talking on a cell phone with a smile on her face, by NHK Animation”
* 這邊其實錯了,webui用的是google的BLIP
你把這串反向輸入加上miku的特徵
你現在知道,透過LAION2B,它真的知道手上有手機是什麼意思。
如何评价OpenAI最新的工作CLIP:连接文本和图像,zero shot效果堪比ResNet50? -...
難怪他們今年把人工標註的團隊解僱了一百多個人
基本上機械學習領域半年一個世代兩年就四個世代了。何況CLIP現在知道是很巨大的應用,但是當時其實大家反應因為很多人說過zero-shot結果反而當下被一部分人看輕,你上頭引的知乎那邊也有業界人士這樣講,我記得他是Yolox的leader吧。
技術途徑其實可能要過一陣子(比方說一兩代)才知道關鍵技術能起多大的作用,拿去通靈其實是有點誇張了,何況是少數人可以決定的私營企業。
BLIP的回覆是
”a girl with blue hair and a blue dress with gold accents and a blue wig and a blue dress with gold accents, ”
加上圖做img2img固定構圖骰的時候就相對精確
最後得到這張
才剛講完就打臉了
Robust fine-tuning of zero-shot models
Robust fine-tuning of zero-shot models
WiSE-FT
這個是華盛頓大學、StabilityAI (就是Stable Diffusion)、LAION合作的CLIP開源實作,然後在擴大資料後他們把現在的LAION5B的數據整個做成OpenCLIP的模型,並且在9/16發表,是目前圖像分類器的SOTA,並且model是公開的。
> [Submitted on 4 Sep 2021 (v1), last revised 21 Jun 2022 (this version, v3)]
如果有在用的話基本上會注意到Stable Diffusion在輸入適當文言有一定的複雜度需要經驗,而且也有不少限制;上面也說過跨過CLIP這一段之後就回到相對平凡的GAN morphing;
但是透過高精度的分類識別去進一步引導Stable Diffusion,特別是這兩個使用的是同一個資料庫的時候,可以預期敘述可以更精確地傳達。
比方說lexica目前透過實作OpenCLIP,提供了從照片輸入去搜尋相近Stable Diffusion咒文的服務
> 對於一些抽象任務或是系統性任務它就失敗了,比方說計算圖片裡面有幾個物體,或是問它圖片裡面最接近的兩台車有多近,它的答案基本上只比亂猜好一點。還有一些針對特定領域的 fine-grained classification 問題的表現也不好,比方說問它這台車的車型,它就做不好。
> 還有,如果是 pre-training 的 dataset 裡面缺乏的領域,那就真的做得不大好,比方說他雖然能做 OCR,但是 pretrain dataset 沒有 MNIST,給他 MNIST 的手寫文字辨識,他只能做到 88%,一般特定 model 就可以做到 99.75%。
大家都在講技術之類的事情,但是會這樣討論技術就是沒有真的下去碰一下現在的AI;基本上現在透過AI在做的事情,其實是自然語言/關鍵字搜尋和轉蛋。
也就是說理論上如果「所有活著的繪師」都抵制的話那AI就會沒有圖可以用;但是從Vtuber的經驗我們知道,抵制的人多,反而讓剩下來「支持AI」的人會變得更有名。
這一串最大最討厭的事情是,反抗AI和反抗社群一樣會降低繪師的曝光率,讓自己被隔離。」
不然只要在意他人眼光就一定會輸給AI,畢竟一個人怎麼可能打贏兩千年和50億張圖片」
我現在講的事情是繪師至少碰一下AI,和它保持距離只會剝奪自己的競爭力。
很多人都一直被終結者迷惑了,只有人才會殺人而已。
圍棋界象棋界不一樣的事情是,兩方完全資訊並且有輸贏的狀況,可以完全用亂數產生得到局面之後讓類神經網路去學習輸贏本身,然後透過純AI對弈去做強化學習,也就是資訊可見/有輸贏這件事情的話AI學習時間會比較短。
但是對人而言,圍棋AI變成可以在更短的時間內探索更大的可能性,因為它等於是把許多局面消化過之後和人對下,人會在很短的時間內得到更多知識,因為不論電腦下贏人或者電腦下贏電腦都沒有意義,因為棋賽涉及獎金就是人對人的事情。」
「任何有專業的職業和data driven沒辦法對抗」是因為data driven的重點本身是透過過去的結果和生成模型做重建,所以如果專業職業者本身work需要從頭來,而不是透過工具消化掉某些重複過程的話,那真的會很辛苦。
> 他一次可以出一千張讓業主挑,你跟他拼看看啊?
這句也不對,首先是AI在這個過程其實應該是雙方共同用來探索IDEA的東西,因為量已經不是問題的話那就變成勞力要放在刀口上,繪師接案通常都會有Rework限制,因為業主通常外行,經常性的修改常常只是溝通成本;但是實際上業主要的是提高單一的work的效果,而不是給他一千張,他會付一千張的錢嗎?光過濾就是個問題,我就算自己生一千張我也知道只有幾十張是可以用的,而實際上要成品的可能就是在這幾十張堪用的set裡面去挖掘idea。
所以確實是那句「排斥AI的繪師最害怕的是其他學會AI的繪師」,AI工程端其實也是希望繪師看怎麼學。
那串真正有意義的其實是這個
會用AI的繪師在探索的過程裡面發現「市場其實對工筆仍然有一定比例的期待」「對官能仍然習慣重口味」
=加總之後變成retro-future,維多利亞風的美術但是都是現代爆乳;但是很明顯地除了第一個挖到這個的人之外後面也沒辦法靠這賺錢。
所以AI嘗試的成本變低確實變成有機會變成市場風向球,甚至是下水道採樣_A_
但是跨過自然語言處理之後,後面的圖片混合是傳統的擴散內插,所以你會看到seed跳躍的狀況。