ಠ_ಠ
好像很多人以為AI繪圖只有StableDiffusion跟Midjourney有資料庫授權,或者公司/繪師自己訓練模型就沒問題?

@seiichi_ - 其實很多AI無罪論的人都忽略了大多AI吃的都是別人無授權的圖 除非是像Adobe...

實際上(官方說法)
Midjourney:使用開放圖庫
Dalle:使用開放圖庫
Adobe:使用開放圖庫+自己的圖庫
訓練自己的模型:使用或搭配大闇鍋SD模型

然後公眾授權庫有什麼問題?就是第三方可能會把別人的圖當成自己進行公眾授權;以及有人認為公眾授權的非商用也包含不能訓練模型;另外公眾授權庫的許多二創足以還原目標本體。

什麼畫起來效果差代表沒用非授權圖,只是模型調教上Adobe跟Dalle還輸Midjourney而已。

如果反對AI使用非授權資料訓練,Dalle、Adobe、ChatGPT都不例外。
ಠ_ಠ
不過如果基於這個理由,反對包含ChatGPT在內的所有AI生成,並貫徹在自己的生活中不接觸不使用,那即使立場不同,確實也值得尊重。

根據目前(於下文補充)的資料確定的事情
1.Adobe有用到公眾授權圖,並且沒有為這些圖片付錢(Adobe只付自己Adobe Stock內的圖的銷售費),而對於AdobeStock的圖當初用於訓練AI也未特別告知使用者(目前已提供退出機制)
2.Dalle跟Midjourney使用的圖來自於 LAION-5B 這個開放式數據集。
3.Midjourney有針對數據集中萬一存有版權圖提供退出機制。
soba6500
河道噗?
toast7681
Adobe 有用公共授權圖,哪裡有證據?
toast7681
soba6500: 感覺應該是 Zaious|AI 情報屋 發的
soba6500
toast7681: 難怪
soba6500
其實我們目前無法證實以上軟體訓練時使用的是公眾授權圖庫,包括Stable Diffusion的開源模型使用的都是版權圖片。若非這些模型一開始在訓練時就參雜了許多版權圖,那麽在打畫家名字當關鍵字時不可能會出現有意義的結果。
soba6500
所以他們都用公共授權庫的說法是完全沒有根據的,若是有,那麽這些模型在打入關鍵字後出現的結果也不該有istockphoto或者Getty images的浮水印。
toast7681
但 adobe 的確實就不會出現有意義的結果 https://www.kocpc.com.tw/...
soba6500
toast7681: 那有可能Adobe真的如他們所宣稱的用的都是自己的圖庫
bean244
除了adobe有自家圖庫之外 AI之前拿來訓練的圖庫都是公開可以使用的 包括有標示cc的圖等等 另外 很多圖庫公司也加入了AI 把版權圖庫拿來用 推自己家的AI生成
bean244
至於風格的部分 知名畫家風格 比方說西方許多畫家的圖 那個都是公開版權了 所以會有標記
bean244
而訓練風格可以採用有的可以是去寫meta標記的
bean244
不能採用被訓練的圖 目前Adobe 等業界公司已經開發出一套標準 陸續會採用中
bean244
版權這問題在未來的AI世界中問題就不大 一開始已經早有規劃了
soba6500
圖庫公司加入是樂見其成。至於畫家風格,基本上比較受歡迎使用者常用的畫家關鍵字都是現任繪師(例如目前打官司的幾位), 所以不可能是公開版權。

打Krenz當關鍵字的人也是很多的。
ಠ_ಠ
toast7681: Adobe - Adobe Unveils Firefly, a Family of new Creat...

dobe’s first model, trained on Adobe Stock images, openly licensed content and public domain content where copyright has expired, will focus on images and text effects and is designed to generate content safe for commercial use.

US ClaireForce on Twitter

因為是Adobe剛發布時就看到的,剛剛去找了一下資料
ಠ_ಠ
toast7681: 對,這是我發的沒錯,偷偷說只是要觸及率而已。

另外Dalle跟Adobe使用公眾授權圖庫都是他們自己說的。
soba6500
ಠ_ಠ: Midjourney應該不是,至少以目前生成圖片的結果來說我不信。
我自己都生出過浮水印圖。
bean244
基本上不會拿石頭砸自己的腳 因此dalle adobe這兩家他們一開始就會限定是使用公眾圖庫 或者是有的還會先去付錢授權
bean244
MJ我很少用我不熟 但我猜他們應該也會花錢去處理
bean244
只有SD就沒辦法了 SD圖的來源和我們網路上下載的一大堆訓練資料 來源有很多是未知
bean244
因此用SD產圖會建議儘量是做新的東西 去模仿某些特定畫家風格或有版權風格的東西 我猜會比較有灰色問題
ಠ_ಠ
soba6500: 那也有可能是Dalle跟Adobe在使用圖庫時,用其他方式把帶有浮水印的圖挑掉了。

當然這些官方說法信不信我也沒辦法幫忙證實,但MJ的說法就是,他們使用的是公眾授權圖庫(而非很多人說MJ不敢說)
bean244
因此我說了檯面上的圖庫和AI生圖公司 絕大部分都會有錢把版權搞定 特別是微軟openai dalle和adobe。至於MJ,我不太看好它,一堆AI生圖和圖庫公司(shutterstock、gettyimage加入AI後已經對他們產生競爭壓力)
soba6500
ಠ_ಠ: 我好奇他們是哪邊聲明的?可以指路嗎?
ಠ_ಠ
soba6500:
Midjourney: Everything you need to know about the AI...

"It’s [the dataset] just a big scrape of the Internet. We use the open data sets that are published and train across those. I’d say that’s something that 100% of people do. We weren’t picky," says David Holz, founder of Midjourney, in an interview with Forbes.

官方公告我等等進公司再翻
ಠ_ಠ
Why You Should be Careful Using DALLE-2 & Midjourney...

Dalle的參考這篇,可能除了公眾授權庫外還有Flicker上的圖,一樣我等等再補官方資訊
bean244
ಠ_ಠ: Dalle最糟應該還有用CC授權的圖
bean244
反正微軟有錢 到時候他們都會花錢補不足的部分吧 XDD
hippo8678
ಠ_ಠ: 不太對, 算圖比較爛的程式也是因為在使用條約中有明文"規定"禁止使用非受權和人物肖像來算圖, 有些程式都沒開源你怎麼知道模型差了? 通靈?
ಠ_ಠ
hippo8678: 請舉例你說的「條約中有明文規定」是哪一句,我才有辦法去找出來比較。

不然這幾家都說自己使用公眾授權圖庫,不相信才真的是通靈

(微軟跟Adobe也沒有「打開」自己的圖庫)
hippo8678
ಠ_ಠ: Term & Condition
hippo8678
記得Dalle的Term & Condition有說得很清楚, Adobe不是有說用的訓練素材會付錢給原作者嘛? 目前除了Adobe外印象沒其他家有這樣聲明, 很多從開始就用了一堆未授權的圖本身就是髒的鎖已才說是原罪
soba6500
ಠ_ಠ: Open dataset只說明這些是網路公開的圖片(沒有侵害隱私權),不代表公眾授權喔

有公開不代表有授權
hippo8678
為了護航通靈堆有的沒的, 都已經有網站可以讓繪師查自己的圖是否有被算圖程式用過, Have I Been Trained至少是個參考
soba6500
open dataset是專指程式碼的,圖像的open source 是CC0, 看來Midjourney 事前可能功課沒做好。網路公開的圖片不代表開放無償使用。
soba6500
確實目前宣稱用來訓練自己圖庫的圖像都是經過授權的好像也只有Adobe而已了。

專做創作者生意的在這方面比較小心一點。
soba6500
光是能算出浮水印,其實就不可能是使用公開”授權”的圖庫了。就是不想要別人用才會加浮水印的啊⋯⋯
hippo8678
soba6500: 所以我才不喜歡那些打著AI噱頭行銷名號, 實則是侵權&把自己的道德良知丟了沒有底限的炒作才爆發式"進步"的算圖公司, 別人做不到是因為還有版權意識和道德
soba6500
hippo8678: 我個人不同意你這種說法。我認為對於AI用於訓練的資料是否能包括版權物的標準,必須在所有領域都保持同樣標準。如果得以將有版權的公開發表文字用於訓練語言,那麽就得以以同樣標準看待圖像,程式碼,科學以及未來的醫學研究,科學專利等。
soba6500
AI對於現有人類知識的學習與模仿是全方面的,法律應該訂出一個放諸各領域皆通用的標準,如果AI訓練過程使用公開版權圖像為違法,那麽他在訓練時使用公開版權文字也應屬違法。但顯然提倡訓練AI時使用版權圖為違法時很少有人拿其他領域來做比較,僅專注在圖像與音樂上。
soba6500
目前畫家與AI公司的官司會是個牽一髮動全身的案例,這案例所設下的標準以後會通用到所有AI為人類貢獻的科學發明上,所以法官在判斷的時候也會特別謹慎。
soba6500
使用AI生成的作品特意去瓢竊他人創作或是假冒其他創作者作品是使用者本身有道德疑慮,但訓練AI時所用的資料若完全不能涵蓋任何既有版權物或既有專利,那麽當這個準則放到程式碼,文字,科學研究上都可能對人類總體利益及未來的創新空間造成相當大的損害。

版權的用意及保護從未包括禁止他者透過學習版權物來對社會產生新的貢獻。
ಠ_ಠ
hippo8678: 這個我可以先明確回答

Adobe只說,使用自己圖庫的圖會付錢(透過Adobe Stock的銷售機制),但他們還有使用Public的圖,這部分就沒有付錢的事情(要付錢也沒有付錢的對象)。

其他資料我現在找一下
hippo8678
hippo8678
特別是「AI」這個詞,作為行銷術語非常出色,讓人聯想到「會思考的機器」,然而現實是,目前還沒有一台機器會思考,也還沒有哪個軟體,真正具有智慧。
soba6500
hippo8678: AI不需要像人類一樣思考或有智慧,他只要足以對人類產生新的貢獻就夠了。從來也沒規定AI需要有智慧或者會思考才能對社會產生新的價值。
hippo8678
https://images.plurk.com/3eyffSZPVZ5srjs0u3Eqt3.png 紐約大學心理學和神經科學名譽教授,外加創立了機器學習公司,的專家說的話
hippo8678
ಠ_ಠ
soba6500:
根據
r/midjourney on Reddit: What are your thoughts on th...
GitHub - LAION-AI/dalle2-laion: Pretrained Dalle2 fr...

Dalle2跟Midjourney的數據庫都是LAION 5B這個開放式數據集,裡面據說有23億張圖片
LAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL ...
hippo8678
soba6500: It's called machine learning, please repeat after me, machine learning, not ai
soba6500
hippo8678: 你只是想將你對AI/machine learning的不滿投射在我身上罷了。你無權指示我該用怎樣的詞彙,我將不再對這些情緒化並且文不對題的談論做出回應。
ಠ_ಠ
soba6500:
Midjourney Terms of Service
另外根據Midjourney的官方規範中,如果你認為你的圖被未授權丟到了數據集,可以寄信給他們,他們會負責剔除
hippo8678
https://images.plurk.com/6XdGUwVq3ZJ4QDwsTqMebv.gif
哪天機械真的有智能的話,都馬先對壓榨自己的奴隸主和演算仔下手,自己視為工具的機械居然敢反抗不聽指令,反而不碰AI的人還可能與其建立對等的關係相處
soba6500
I don’t see a point in arguing how the machine learning process should be called anyway, everyone calls it AI, you cannot enforce the public to not use AI to refer to machine learning.
soba6500
ಠ_ಠ: 這我知道,不過舉證困難就是。
LaiON的數據資料庫正是這次官司的疑慮所在,所有的SD都是用LaiON訓練而來,而LaiON的圖庫被證實有許多版權圖片。
hippo8678
soba6500: sorry bro, as right now, ai don't exist, you can keep dreaming and acted like you're logical
ಠ_ಠ
soba6500: 這就是我說的,LaiON雖然是開放式數據庫,但沒有辦法保證所有提供者都是第一手。(以及,二創跟仿圖自然也在裡面做為標籤)

但Midjourney的官方條文也特別註明如果你覺得你的版權圖在裡面,來信確認他們就會刪除
soba6500
hippo8678: try explaining that to the public :-P BTW, you mean “AI doesn’t exist.”
you can try asking ChatGPT to correct your grammar for you.
hippo8678
Been tricked by Jew's false advertisements, poor technofag
ಠ_ಠ
Adobe當初還有一個問題是,在他們發佈FireFly之前是未經Adobe Stock的圖庫提供者同意就將圖片用於訓練(並默認所有提供Adobe Stock賣圖的賣家都同意自己的圖被用來訓練)

當然最後就是訓練也算是賣圖銷售的一部分+提供退出機制
Adobe推出AI图像生成产品 Firefly,宣称自己是没有原罪的AI模型
soba6500
ಠ_ಠ: 我猜他們所指的是image to image生圖的資料庫部分,對AI有認識的人都知道,一但經過訓練,留下的就只有數學公式,要怎麼移除裡面的圖?所以能夠移除的只有使用者自發性提供的圖,而非LaiON圖庫。

事實上要去要求LaiON將自己的作品移除,應該要去跟LaiON反應才對。
ಠ_ಠ
soba6500: 所以我會說這些公司都已經盡可能地去處理這部分問題(而且就像你說的,訓練成模型就已經回不去了)

只是如果要把使用未經同意拿來訓練的圖就有問題當作標準,檯面上可能沒有一間AI工具公司是豁免的。(尤其是ChatGPT,我真的沒看到有人願意深入討論ChatGPT吃了多少版權文字)
lemon8745
Chatgpt比較簡單用
ಠ_ಠ
我目前整理的總結(補於1樓)
根據目前比較確定的資料,要0腦補只陳述客觀事實的話:

1.Adobe有用到公眾授權圖,並且沒有為這些圖片付錢(Adobe只付自己Adobe Stock內的圖的銷售費),而對於AdobeStock的圖當初用於訓練AI也未特別告知使用者(目前已提供退出機制)

2.Dalle跟Midjourney使用的圖來自於 LAION-5B 這個開放式數據集。

3.Midjourney有針對數據集中萬一存有版權圖提供退出機制。

(當然以上都是這些公司自己宣稱)
soba6500
ಠ_ಠ: 是的。連打官司的畫家也知道這是一個回不去的過程,所以我也好奇到底會怎麼判。
bean244
ಠ_ಠ: 如另一邊和你說的一樣,我認同。 : P
bean244
但我之前提到的不要讓自己的圖片被訓練,這個業界新增的新標籤meta之後會是產業標準,因此長期來看我是完全不擔心的。大公司和業界會有自己形成的一套機制去處理。
ಠ_ಠ
bean244: 真要我說的話,我持的論點會是AI已經不用新的數據了,只差在一直調整訓練方式跟訓練技術。

AI繪圖工具其實可以不用未來繪師們的畫作,未來都不能更新數據集我想他們也不在意。就像GPT3、3.5、4其實都只到2021.09
bean244
ಠ_ಠ: 如果是為了增補某些領域的東西還是會抓新資料,但透過外掛已經可以即時去拿外部資料來生成用,只要有適當的外掛和授權即可。
bean244
不過我知道研究人員還在收集更多東西來訓練,因為還是有很多需要補強的地方,但演算法,大體已經是成型了,只是之後還需要再疊加改良的版本,持續進化。
soba6500
hippo8678
soba6500: 沒錯, 不喜歡我可以黑單, 老子敢承認 https://images.plurk.com/5a205vjkZntXZOx4mnau4z.jpg
jujube3103
用AI沒問題,有問題的是發表出來,還聲稱是自己的創作,或是隱瞞有使用AI,使用CHATGPT的使用者,很多都是私下玩,不然也不會說是自己創作,甚至有隱瞞使用AI,請不要把某些AI算圖的糟糕使用者,拿來相提並論。
ಠ_ಠ
jujube3103:
ಠ_ಠ - 講個已知用火的事:公司開記者會,事後出來的新聞稿是由公司提供。 然後敝公司的新聞稿已經全面由...

我很想說這個例子已經是業界常態了,而且文字的AI對於商用與企業內容的編寫追溯到2021年GPT3出來就已經開始,恩,我就待在業界這點我很確定。
soba6500
hippo8678: 那你就幫你引用的圖註明一下出處吧 我知道這是誰畫的但是大部分的人應該不希望別人這樣沒說一聲散播自己的圖
hippo8678
soba6500:
@ChaoticUnknown - 幹笑死wwwwww
我。有。啊, you blind?
soba6500
hippo8678: 你沒在這邊貼啊 誰會去看你河道引用了什麼wwww
hippo8678
soba6500: 我懶的每次都貼, 我也不會說圖是我畫的www你怎麼不用同一個標準要求算圖程式?
hippo8678
soba6500: https://images.plurk.com/4zlY3OLE9KfsUXomSp6FVo.jpg 我再送你一張我不知道出處的真言
soba6500
hippo8678: 引用別人的作品貼來源是基本禮貌好嗎?隨便被不認識的引戰仔偷圖比圖被拿去訓練AI更讓人困擾wwww
bean244
這只是討論又沒有牟利,引用案例並不需要每一篇都貼來源,當然如果是我我都會貼啦。但感覺你這樣躺論,只是為了反對而反對而已。XD
garlic451
版權問題根本不問題,大公司們會自己解決,而且你們有誰會追究ai被餵多少版權文字??
garlic451
ai公司如果未來補足版權這塊,反ai仔可能還會很失望,因為沒有理由反ai惹~
hippo8678
soba6500: 隨便被不認識的引戰仔偷圖比圖被拿去訓練AI更讓人困擾>>蠻爛的類比, 難怪分不清人工智能和演算法(
hippo8678
bean244: Thank you!
soba6500
bean244: hippo8678: 哇我現在真不知道是誰不尊重創作者了 AI生圖都還不能算是盜用自己的圖,但是圖被引用誰都會希望這些看到的人能夠回到推特這樣創作者才能漲粉啊 一堆IG帳號隨意轉載繪師的圖用來漲自己的粉都好歹有給出處,最困擾的就是這種明明自己的圖被使用了卻沒人知道是自己畫的這種情況好嗎?
soba6500
河道上那麼多創作者,隨邊抓一個人來問問看嘛
這完全不是牟利不牟利的問題 牟利就要告下去了謝謝
hippo8678
hippo8678
garlic451: 反ai仔可能還會很失望>>不會失望~~因為正義得以伸張~~然後演算仔還是不會"畫圖"還要付費
bean244
討論引用圖有差嗎? 那一篇原po都有說在他的噗文有標記了喔
bean244
我只想說 你們這些反AI廚實在是太嫩了
bean244
沒建設性,也不不了大事。
soba6500
bean244: 你才是為反而反而已吧 我沒提醒之前誰知道那圖的出處?
hippo8678
不是免費我看還有多少人會支持, 免費試用也是商業炒作的套路之一
hippo8678
soba6500: 你不會自己去找哦? 告訴伸手黨出處還反過來挑毛病, 雞bye耶
hippo8678
soba6500: 你這種人要是上K島一定被幹屌死(
soba6500
hippo8678: K島是給你這種拿別人圖不引用出處的噁男去的 我就不用了 謝謝
hippo8678
soba6500: 噁男www
lynx7628
https://images.plurk.com/QYYLo8vBdJkHAwtdENjEk.png
hippo8678
lynx7628: wwwwwwwwwwwwww
載入新的回覆