dobe’s first model, trained on Adobe Stock images, openly licensed content and public domain content where copyright has expired, will focus on images and text effects and is designed to generate content safe for commercial use.
"It’s [the dataset] just a big scrape of the Internet. We use the open data sets that are published and train across those. I’d say that’s something that 100% of people do. We weren’t picky," says David Holz, founder of Midjourney, in an interview with Forbes.
I don’t see a point in arguing how the machine learning process should be called anyway, everyone calls it AI, you cannot enforce the public to not use AI to refer to machine learning.
實際上(官方說法)
Midjourney:使用開放圖庫
Dalle:使用開放圖庫
Adobe:使用開放圖庫+自己的圖庫
訓練自己的模型:使用或搭配大闇鍋SD模型
然後公眾授權庫有什麼問題?就是第三方可能會把別人的圖當成自己進行公眾授權;以及有人認為公眾授權的非商用也包含不能訓練模型;另外公眾授權庫的許多二創足以還原目標本體。
什麼畫起來效果差代表沒用非授權圖,只是模型調教上Adobe跟Dalle還輸Midjourney而已。
如果反對AI使用非授權資料訓練,Dalle、Adobe、ChatGPT都不例外。
根據目前(於下文補充)的資料確定的事情
1.Adobe有用到公眾授權圖,並且沒有為這些圖片付錢(Adobe只付自己Adobe Stock內的圖的銷售費),而對於AdobeStock的圖當初用於訓練AI也未特別告知使用者(目前已提供退出機制)
2.Dalle跟Midjourney使用的圖來自於 LAION-5B 這個開放式數據集。
3.Midjourney有針對數據集中萬一存有版權圖提供退出機制。
打Krenz當關鍵字的人也是很多的。
dobe’s first model, trained on Adobe Stock images, openly licensed content and public domain content where copyright has expired, will focus on images and text effects and is designed to generate content safe for commercial use.
因為是Adobe剛發布時就看到的,剛剛去找了一下資料
另外Dalle跟Adobe使用公眾授權圖庫都是他們自己說的。
我自己都生出過浮水印圖。
當然這些官方說法信不信我也沒辦法幫忙證實,但MJ的說法就是,他們使用的是公眾授權圖庫(而非很多人說MJ不敢說)
"It’s [the dataset] just a big scrape of the Internet. We use the open data sets that are published and train across those. I’d say that’s something that 100% of people do. We weren’t picky," says David Holz, founder of Midjourney, in an interview with Forbes.
官方公告我等等進公司再翻
Dalle的參考這篇,可能除了公眾授權庫外還有Flicker上的圖,一樣我等等再補官方資訊
不然這幾家都說自己使用公眾授權圖庫,不相信才真的是通靈
(微軟跟Adobe也沒有「打開」自己的圖庫)
有公開不代表有授權
專做創作者生意的在這方面比較小心一點。
版權的用意及保護從未包括禁止他者透過學習版權物來對社會產生新的貢獻。
Adobe只說,使用自己圖庫的圖會付錢(透過Adobe Stock的銷售機制),但他們還有使用Public的圖,這部分就沒有付錢的事情(要付錢也沒有付錢的對象)。
其他資料我現在找一下
根據
Dalle2跟Midjourney的數據庫都是LAION 5B這個開放式數據集,裡面據說有23億張圖片
哪天機械真的有智能的話,都馬先對壓榨自己的奴隸主和演算仔下手,自己視為工具的機械居然敢反抗不聽指令,反而不碰AI的人還可能與其建立對等的關係相處
LaiON的數據資料庫正是這次官司的疑慮所在,所有的SD都是用LaiON訓練而來,而LaiON的圖庫被證實有許多版權圖片。
但Midjourney的官方條文也特別註明如果你覺得你的版權圖在裡面,來信確認他們就會刪除
you can try asking ChatGPT to correct your grammar for you.
當然最後就是訓練也算是賣圖銷售的一部分+提供退出機制
事實上要去要求LaiON將自己的作品移除,應該要去跟LaiON反應才對。
只是如果要把使用未經同意拿來訓練的圖就有問題當作標準,檯面上可能沒有一間AI工具公司是豁免的。(尤其是ChatGPT,我真的沒看到有人願意深入討論ChatGPT吃了多少版權文字)
根據目前比較確定的資料,要0腦補只陳述客觀事實的話:
1.Adobe有用到公眾授權圖,並且沒有為這些圖片付錢(Adobe只付自己Adobe Stock內的圖的銷售費),而對於AdobeStock的圖當初用於訓練AI也未特別告知使用者(目前已提供退出機制)
2.Dalle跟Midjourney使用的圖來自於 LAION-5B 這個開放式數據集。
3.Midjourney有針對數據集中萬一存有版權圖提供退出機制。
(當然以上都是這些公司自己宣稱)
AI繪圖工具其實可以不用未來繪師們的畫作,未來都不能更新數據集我想他們也不在意。就像GPT3、3.5、4其實都只到2021.09
我很想說這個例子已經是業界常態了,而且文字的AI對於商用與企業內容的編寫追溯到2021年GPT3出來就已經開始,恩,我就待在業界這點我很確定。
這完全不是牟利不牟利的問題 牟利就要告下去了謝謝