山特▶
這個事件
跟該噗無關,但是我想重複提醒大家一件事:上傳 Google 的內容,活人(Google 內外部人員)不一定看得到,但是那是可以被機器瀏覽/利用的
山特▶
很確定這件事是我之前開了一個全新 Google 帳號,在雲端硬碟裡開了新的 Google 文件,所有文件與資料夾的權限都是設定為只有我自己能存取。
但是有一段時間(約兩個禮拜到一個月),我好幾個文件不斷都被 Google 警告「被檢舉違反守則因此刪除」,重新建立同樣內容的文件也會收到同樣警告。
我不可能檢舉自己,就算誤按也不可能誤按這麼多次,除了我以外沒有人知道這個帳號,除了我以外沒人有文件網址,除了我以外沒有人有存取權限。
除了 bot 我找不到其他理由。
山特▶
「瀏覽」上面的例子足夠舉證,那麼「利用」呢?
山特▶
常在用 Google 產品,且沒有特地去關掉新功能的人應該都能發現,Google 產品裡幾乎都有自動建議/校錯的功能。
那麼各位不妨再想想,用來調教演算法,產生那些建議與糾錯程式的資料來源是哪裡?
如果有足夠閒暇的人,去翻隱私權條例跟設定的話,應該會看見類似「讓 Google 利用使用者資料來改善產品」或之類的內容,沒錯,這就是為什麼你能得到這麼優秀的建議與糾錯內容的原因。
山特▶
基本上資料的利用都會限於一定範圍內,比如該文件內的內容只能用於運算該文件的改善程式,或者某使用者的個人資料只能用在該使用者個人的建議上,但不可否認的,要得到這麼方便的功能就代表,一定需要有 bot 看過你的文件內容。
山特▶
(暫離晚點繼續)
山特▶
舉個我懷疑是利用文件內容改善文件建議的例子,未證實,各位聽個參考就好。
之前我曾經為了跟某個美國的同人作者聯繫,聯繫前我利用 Google Docs 打稿,內容大致是 200 字的英文信。
其中,我在某一個地方拼錯了角色的名字,是一個字母的錯誤,印象中是倒數第二個 m 打成 n,基本上就是我自己再檢查兩百遍可能都不會發現的錯誤。
讓我意外的是,Google 顯示了修正建議給我,並且很精準地提出了正確的姓名拼音。
山特▶
讓我驚訝的點在哪裡?
第一,人名很難做自動建議。因為——你想想,世界上的人名是什麼稀奇古怪的拼法都有,而他並不是單單指出這個名字可能拼錯,而且提出了正確的拼法,代表 GEC 模型是認得這個人名的。
山特▶
這導出了第二:那是一個漫畫角色,不是愛因斯坦。我知道世界上很多 GEC 模型都可以抓出拼錯的愛因斯坦或世界名人,但親愛的,那是漫畫角色,而且是一個近幾年竄紅的漫畫。更別提漫畫無論如何都是小眾文化。
山特▶
所以,模型到底是如何學會這個名字的?我的推論有三。
第一,Google 的 GEC 模型結合了 Google Search 裡面的文件資料,他能夠透過 Google 抓到的最新網路資料,進行人名的驗證。
直接說結論,我認為這不可能。我很難用隻言片語解釋理由,說實話我也不太想解釋,你們就當做我的直覺吧。
嘗試用一句話解釋的話,還是那句老話,GEC 模型是認得這個角色,而不是單純指出拼字錯誤的。
山特▶
第二跟第三有點接近:第二是,Google 會自動用同樣文件中的文字進行內容修訂;第三是,Google 會自動利用使用者在 Google Docs 中的輸入的內容訓練模型,進行內容修訂。
山特▶
我記得我當初有做實驗,嘗試驗證到底二還是三比較有可能,但結論我忘記了。
可以肯定的是,無論是二還是三,都代表使用者在 Google Docs 中輸入的內容,是會被回收到後台進行模型訓練的。
山特▶
所以我上面才會有這個結論:bot 可以瀏覽 Google 產品內容並進行建議與糾錯。
山特▶
講到這邊可能會讓人有點恐慌,這代表我們所有資料都被看光了嗎?
我覺得我可以分享一下我自己經驗中聽說過的,大公司有的資料存取權限與可能人員。
山特▶
我聽說過的一個資料流是,確實,所有使用者(客戶)的文件內容,都會進到資料庫中,並使用該資料庫進行 AI 模型訓練,而訓練出的模型會返回給使用者使用,使用者使用過程重產生的資料再進到資料庫,依此輪迴。
那麼是所有人都能看到那個資料庫嗎?
不,資料庫的存取權限限定給了 (1) AI 模型的訓練,(2) 機器人的內容審查,(3) 審查人員的審查。
山特▶
1 可以說是合理且無法避免,但 2 跟 3 是怎麼回事?
山特▶
會有 2 跟 3 的存在是因為(跟噗首那個事件很像),當公司在儲存使用者資料進行 AI 訓練時,使用者的資料理所當然是儲存在公司資料庫的。
而如果使用者上傳不當內容,不當內容會被存在哪裡?自然是公司資料庫內。當警察臨檢發現公司資料庫內有不當內容時,該公司能說「哦不,那不是我管理的內容,那是使用者上傳的,我只負責儲存而已」嗎?當然不行。
你想想,散播毒品有罪,持有毒品本身也有罪,不是嗎?
山特▶
雖然說模型或儲存空間本身只是工具,但開發公司有義務避免工具被濫用。
退一萬步說,就算公司不願意履行義務,在持有毒品亦同罪的情況下,公司想必會盡全力避免自身持有那份毒品,因此反過來遏止毒品被塞進資料庫。這就是連座罰之所以如此強大的地方。
山特▶
但同時,逐一審查使用者上傳資料是絕對違反使用者隱私的(背景知識:許多歐美國家的隱私權法規硬得跟鬼一樣),就算不論隱私問題,這樣的逐一審查曠日費時,不切實際。
因此他們退一步,不使用人類檢查,而是建立一個機器人,定期掃過資料庫內容,確保資料庫中沒有不當內容。這個機器人不應在資料庫中進行學習,也不應對資料進行任何處理或紀錄。
在非必要情況下,這個機器人也是唯一一個能瀏覽資料庫內容的對象——沒錯,唯一。連開發人員都不允許存取。
山特▶
什麼叫必要情況?必要情況就是,機器人真的偵測到了不當內容,且不當內容足夠發起「警示」(alarm)。這個情況下,特殊審查人員(注意,不是開發人員。通常是法務部門的人。)才會真的進到資料庫中,驗證被回報的資料是否真的存在非法利用的情況。
山特▶
以上就是我曾經聽說過的其中一種資料保護流程。聲明:這不是 Google 的處理流程,每個產品的流程也都不盡相同。
你如果真的很在意資料會被怎麼利用:去看你自己按下同意的隱私權協議。
說真的,你真的這麼在意自己的資料被怎麼使用,那你為什麼不好好看清楚自己賣出了什麼來換取你所能用到的服務?
山特▶
我現在的公司也有一套資料控管規定,所有公司內的人員都要遵守,基本上就是什麼程度的使用者資料可以被誰存取、怎麼存取,etc
說實話滿麻煩的
山特▶
按印象簡單分類的話大概像:
有些資料完全不應該被讓活人或 bot 存取,甚至連存都不可以存
有些可以存,但人類不可以取
有些可以存,但取的時候要做去識別化
有些可以存,取的時候要提出申請並寫報告
有些可以存也可以直接取
山特▶
所以說真的超麻煩的
山特▶
anyway, 我想說的是,Google 當然有利用 bot 審查不當內容,而且就算你權限全設私人都還是會被掃過。
第二是,我覺得使用者倒也不用這麼擔心,因為越大的公司越常被告,也因此訂出了各種條條框框的規則,如果你信任該公司的話,隱私基本上還是有所保障的。
第三就是,真的很擔心的請去看隱私權協議。
山特▶
=
補:GEC =Grammatical Error Correction = 文法改錯
雖然說叫做文法改錯,但其實我們都常常把拼字改錯也通常文法改錯 :-P
載入新的回覆