很確定這件事是我之前開了一個全新 Google 帳號,在雲端硬碟裡開了新的 Google 文件,所有文件與資料夾的權限都是設定為只有我自己能存取。 但是有一段時間(約兩個禮拜到一個月),我好幾個文件不斷都被 Google 警告「被檢舉違反守則因此刪除」,重新建立同樣內容的文件也會收到同樣警告。 我不可能檢舉自己,就算誤按也不可能誤按這麼多次,除了我以外沒有人知道這個帳號,除了我以外沒人有文件網址,除了我以外沒有人有存取權限。 除了 bot 我找不到其他理由。
常在用 Google 產品,且沒有特地去關掉新功能的人應該都能發現,Google 產品裡幾乎都有自動建議/校錯的功能。 那麼各位不妨再想想,用來調教演算法,產生那些建議與糾錯程式的資料來源是哪裡? 如果有足夠閒暇的人,去翻隱私權條例跟設定的話,應該會看見類似「讓 Google 利用使用者資料來改善產品」或之類的內容,沒錯,這就是為什麼你能得到這麼優秀的建議與糾錯內容的原因。
我聽說過的一個資料流是,確實,所有使用者(客戶)的文件內容,都會進到資料庫中,並使用該資料庫進行 AI 模型訓練,而訓練出的模型會返回給使用者使用,使用者使用過程重產生的資料再進到資料庫,依此輪迴。 那麼是所有人都能看到那個資料庫嗎? 不,資料庫的存取權限限定給了 (1) AI 模型的訓練,(2) 機器人的內容審查,(3) 審查人員的審查。
跟該噗無關,但是我想重複提醒大家一件事:上傳 Google 的內容,活人(Google 內外部人員)不一定看得到,但是那是可以被機器瀏覽/利用的。
但是有一段時間(約兩個禮拜到一個月),我好幾個文件不斷都被 Google 警告「被檢舉違反守則因此刪除」,重新建立同樣內容的文件也會收到同樣警告。
我不可能檢舉自己,就算誤按也不可能誤按這麼多次,除了我以外沒有人知道這個帳號,除了我以外沒人有文件網址,除了我以外沒有人有存取權限。
除了 bot 我找不到其他理由。
那麼各位不妨再想想,用來調教演算法,產生那些建議與糾錯程式的資料來源是哪裡?
如果有足夠閒暇的人,去翻隱私權條例跟設定的話,應該會看見類似「讓 Google 利用使用者資料來改善產品」或之類的內容,沒錯,這就是為什麼你能得到這麼優秀的建議與糾錯內容的原因。
之前我曾經為了跟某個美國的同人作者聯繫,聯繫前我利用 Google Docs 打稿,內容大致是 200 字的英文信。
其中,我在某一個地方拼錯了角色的名字,是一個字母的錯誤,印象中是倒數第二個 m 打成 n,基本上就是我自己再檢查兩百遍可能都不會發現的錯誤。
讓我意外的是,Google 顯示了修正建議給我,並且很精準地提出了正確的姓名拼音。
第一,人名很難做自動建議。因為——你想想,世界上的人名是什麼稀奇古怪的拼法都有,而他並不是單單指出這個名字可能拼錯,而且提出了正確的拼法,代表 GEC 模型是認得這個人名的。
第一,Google 的 GEC 模型結合了 Google Search 裡面的文件資料,他能夠透過 Google 抓到的最新網路資料,進行人名的驗證。
直接說結論,我認為這不可能。我很難用隻言片語解釋理由,說實話我也不太想解釋,你們就當做我的直覺吧。
嘗試用一句話解釋的話,還是那句老話,GEC 模型是認得這個角色,而不是單純指出拼字錯誤的。
可以肯定的是,無論是二還是三,都代表使用者在 Google Docs 中輸入的內容,是會被回收到後台進行模型訓練的。
我覺得我可以分享一下我自己經驗中聽說過的,大公司有的資料存取權限與可能人員。
那麼是所有人都能看到那個資料庫嗎?
不,資料庫的存取權限限定給了 (1) AI 模型的訓練,(2) 機器人的內容審查,(3) 審查人員的審查。
而如果使用者上傳不當內容,不當內容會被存在哪裡?自然是公司資料庫內。當警察臨檢發現公司資料庫內有不當內容時,該公司能說「哦不,那不是我管理的內容,那是使用者上傳的,我只負責儲存而已」嗎?當然不行。
你想想,散播毒品有罪,持有毒品本身也有罪,不是嗎?
退一萬步說,就算公司不願意履行義務,在持有毒品亦同罪的情況下,公司想必會盡全力避免自身持有那份毒品,因此反過來遏止毒品被塞進資料庫。這就是連座罰之所以如此強大的地方。
因此他們退一步,不使用人類檢查,而是建立一個機器人,定期掃過資料庫內容,確保資料庫中沒有不當內容。這個機器人不應在資料庫中進行學習,也不應對資料進行任何處理或紀錄。
在非必要情況下,這個機器人也是唯一一個能瀏覽資料庫內容的對象——沒錯,唯一。連開發人員都不允許存取。
你如果真的很在意資料會被怎麼利用:去看你自己按下同意的隱私權協議。
說真的,你真的這麼在意自己的資料被怎麼使用,那你為什麼不好好看清楚自己賣出了什麼來換取你所能用到的服務?
說實話滿麻煩的有些資料完全不應該被讓活人或 bot 存取,甚至連存都不可以存
有些可以存,但人類不可以取
有些可以存,但取的時候要做去識別化
有些可以存,取的時候要提出申請並寫報告
有些可以存也可以直接取
所以說真的超麻煩的第二是,我覺得使用者倒也不用這麼擔心,因為越大的公司越常被告,也因此訂出了各種條條框框的規則,如果你信任該公司的話,隱私基本上還是有所保障的。
第三就是,真的很擔心的請去看隱私權協議。
補:GEC =Grammatical Error Correction = 文法改錯
雖然說叫做文法改錯,但其實我們都常常把拼字改錯也通常文法改錯