p/p7bk39

山特▶

@boxbox557

Sat, Mar 25, 2023 1:35 AM

Sat, Mar 25, 2023 7:37 AM

8

1

這個事件
跟該噗無關，但是我想重複提醒大家一件事：上傳 Google 的內容，活人（Google 內外部人員）不一定看得到，但是那是可以被機器瀏覽/利用的。

山特▶

@boxbox557

Sat, Mar 25, 2023 1:39 AM

很確定這件事是我之前開了一個全新 Google 帳號，在雲端硬碟裡開了新的 Google 文件，所有文件與資料夾的權限都是設定為只有我自己能存取。
但是有一段時間（約兩個禮拜到一個月），我好幾個文件不斷都被 Google 警告「被檢舉違反守則因此刪除」，重新建立同樣內容的文件也會收到同樣警告。
我不可能檢舉自己，就算誤按也不可能誤按這麼多次，除了我以外沒有人知道這個帳號，除了我以外沒人有文件網址，除了我以外沒有人有存取權限。
除了 bot 我找不到其他理由。

山特▶

@boxbox557

Sat, Mar 25, 2023 1:40 AM

「瀏覽」上面的例子足夠舉證，那麼「利用」呢？

山特▶

@boxbox557

Sat, Mar 25, 2023 1:47 AM

常在用 Google 產品，且沒有特地去關掉新功能的人應該都能發現，Google 產品裡幾乎都有自動建議/校錯的功能。
那麼各位不妨再想想，用來調教演算法，產生那些建議與糾錯程式的資料來源是哪裡？
如果有足夠閒暇的人，去翻隱私權條例跟設定的話，應該會看見類似「讓 Google 利用使用者資料來改善產品」或之類的內容，沒錯，這就是為什麼你能得到這麼優秀的建議與糾錯內容的原因。

山特▶

@boxbox557

Sat, Mar 25, 2023 1:49 AM

基本上資料的利用都會限於一定範圍內，比如該文件內的內容只能用於運算該文件的改善程式，或者某使用者的個人資料只能用在該使用者個人的建議上，但不可否認的，要得到這麼方便的功能就代表，一定需要有 bot 看過你的文件內容。

山特▶

@boxbox557

Sat, Mar 25, 2023 1:51 AM

（暫離晚點繼續）

山特▶

@boxbox557

Sat, Mar 25, 2023 6:25 AM

舉個我懷疑是利用文件內容改善文件建議的例子，未證實，各位聽個參考就好。
之前我曾經為了跟某個美國的同人作者聯繫，聯繫前我利用 Google Docs 打稿，內容大致是 200 字的英文信。
其中，我在某一個地方拼錯了角色的名字，是一個字母的錯誤，印象中是倒數第二個 m 打成 n，基本上就是我自己再檢查兩百遍可能都不會發現的錯誤。
讓我意外的是，Google 顯示了修正建議給我，並且很精準地提出了正確的姓名拼音。

山特▶

@boxbox557

Sat, Mar 25, 2023 6:29 AM

Sat, Mar 25, 2023 7:22 AM

讓我驚訝的點在哪裡？
第一，人名很難做自動建議。因為——你想想，世界上的人名是什麼稀奇古怪的拼法都有，而他並不是單單指出這個名字可能拼錯，而且提出了正確的拼法，代表 GEC 模型是認得這個人名的。

山特▶

@boxbox557

Sat, Mar 25, 2023 6:37 AM

這導出了第二：那是一個漫畫角色，不是愛因斯坦。我知道世界上很多 GEC 模型都可以抓出拼錯的愛因斯坦或世界名人，但親愛的，那是漫畫角色，而且是一個近幾年竄紅的漫畫。更別提漫畫無論如何都是小眾文化。

山特▶

@boxbox557

Sat, Mar 25, 2023 6:42 AM

所以，模型到底是如何學會這個名字的？我的推論有三。
第一，Google 的 GEC 模型結合了 Google Search 裡面的文件資料，他能夠透過 Google 抓到的最新網路資料，進行人名的驗證。
直接說結論，我認為這不可能。我很難用隻言片語解釋理由，說實話我也不太想解釋，你們就當做我的直覺吧。
嘗試用一句話解釋的話，還是那句老話，GEC 模型是認得這個角色，而不是單純指出拼字錯誤的。

山特▶

@boxbox557

Sat, Mar 25, 2023 6:44 AM

第二跟第三有點接近：第二是，Google 會自動用同樣文件中的文字進行內容修訂；第三是，Google 會自動利用使用者在 Google Docs 中的輸入的內容訓練模型，進行內容修訂。

山特▶

@boxbox557

Sat, Mar 25, 2023 6:45 AM

我記得我當初有做實驗，嘗試驗證到底二還是三比較有可能，但結論我忘記了。
可以肯定的是，無論是二還是三，都代表使用者在 Google Docs 中輸入的內容，是會被回收到後台進行模型訓練的。

山特▶

@boxbox557

Sat, Mar 25, 2023 6:46 AM

所以我上面才會有這個結論：bot 可以瀏覽 Google 產品內容並進行建議與糾錯。

山特▶

@boxbox557

Sat, Mar 25, 2023 6:48 AM

Sat, Mar 25, 2023 7:24 AM

講到這邊可能會讓人有點恐慌，這代表我們所有資料都被看光了嗎？
我覺得我可以分享一下我自己經驗中聽說過的，大公司有的資料存取權限與可能人員。

山特▶

@boxbox557

Sat, Mar 25, 2023 6:58 AM

我聽說過的一個資料流是，確實，所有使用者（客戶）的文件內容，都會進到資料庫中，並使用該資料庫進行 AI 模型訓練，而訓練出的模型會返回給使用者使用，使用者使用過程重產生的資料再進到資料庫，依此輪迴。
那麼是所有人都能看到那個資料庫嗎？
不，資料庫的存取權限限定給了 (1) AI 模型的訓練，(2) 機器人的內容審查，(3) 審查人員的審查。

山特▶

@boxbox557

Sat, Mar 25, 2023 6:59 AM

1 可以說是合理且無法避免，但 2 跟 3 是怎麼回事？

山特▶

@boxbox557

Sat, Mar 25, 2023 7:03 AM

Sat, Mar 25, 2023 7:07 AM

會有 2 跟 3 的存在是因為（跟噗首那個事件很像），當公司在儲存使用者資料進行 AI 訓練時，使用者的資料理所當然是儲存在公司資料庫的。
而如果使用者上傳不當內容，不當內容會被存在哪裡？自然是公司資料庫內。當警察臨檢發現公司資料庫內有不當內容時，該公司能說「哦不，那不是我管理的內容，那是使用者上傳的，我只負責儲存而已」嗎？當然不行。
你想想，散播毒品有罪，持有毒品本身也有罪，不是嗎？

山特▶

@boxbox557

Sat, Mar 25, 2023 7:06 AM

Sat, Mar 25, 2023 7:25 AM

雖然說模型或儲存空間本身只是工具，但開發公司有義務避免工具被濫用。
退一萬步說，就算公司不願意履行義務，在持有毒品亦同罪的情況下，公司想必會盡全力避免自身持有那份毒品，因此反過來遏止毒品被塞進資料庫。這就是連座罰之所以如此強大的地方。

山特▶

@boxbox557

Sat, Mar 25, 2023 7:13 AM

但同時，逐一審查使用者上傳資料是絕對違反使用者隱私的（背景知識：許多歐美國家的隱私權法規硬得跟鬼一樣），就算不論隱私問題，這樣的逐一審查曠日費時，不切實際。
因此他們退一步，不使用人類檢查，而是建立一個機器人，定期掃過資料庫內容，確保資料庫中沒有不當內容。這個機器人不應在資料庫中進行學習，也不應對資料進行任何處理或紀錄。
在非必要情況下，這個機器人也是唯一一個能瀏覽資料庫內容的對象——沒錯，唯一。連開發人員都不允許存取。

山特▶

@boxbox557

Sat, Mar 25, 2023 7:16 AM

什麼叫必要情況？必要情況就是，機器人真的偵測到了不當內容，且不當內容足夠發起「警示」（alarm）。這個情況下，特殊審查人員（注意，不是開發人員。通常是法務部門的人。）才會真的進到資料庫中，驗證被回報的資料是否真的存在非法利用的情況。

山特▶

@boxbox557

Sat, Mar 25, 2023 7:21 AM

以上就是我曾經聽說過的其中一種資料保護流程。聲明：這不是 Google 的處理流程，每個產品的流程也都不盡相同。
你如果真的很在意資料會被怎麼利用：去看你自己按下同意的隱私權協議。
說真的，你真的這麼在意自己的資料被怎麼使用，那你為什麼不好好看清楚自己賣出了什麼來換取你所能用到的服務？

山特▶

@boxbox557

Sat, Mar 25, 2023 7:27 AM

我現在的公司也有一套資料控管規定，所有公司內的人員都要遵守，基本上就是什麼程度的使用者資料可以被誰存取、怎麼存取，etc
~~說實話滿麻煩的~~

山特▶

@boxbox557

Sat, Mar 25, 2023 7:29 AM

按印象簡單分類的話大概像：
有些資料完全不應該被讓活人或 bot 存取，甚至連存都不可以存
有些可以存，但人類不可以取
有些可以存，但取的時候要做去識別化
有些可以存，取的時候要提出申請並寫報告
有些可以存也可以直接取

山特▶

@boxbox557

Sat, Mar 25, 2023 7:29 AM

~~所以說真的超麻煩的~~

山特▶

@boxbox557

Sat, Mar 25, 2023 7:33 AM

Sat, Mar 25, 2023 7:37 AM

anyway, 我想說的是，Google 當然有利用 bot 審查不當內容，而且就算你權限全設私人都還是會被掃過。
第二是，我覺得使用者倒也不用這麼擔心，因為越大的公司越常被告，也因此訂出了各種條條框框的規則，如果你信任該公司的話，隱私基本上還是有所保障的。
第三就是，真的很擔心的請去看隱私權協議。

山特▶

@boxbox557

Sat, Mar 25, 2023 7:36 AM

=
補：GEC =Grammatical Error Correction = 文法改錯
雖然說叫做文法改錯，但其實我們都常常把拼字改錯也通常文法改錯