身為一個資安領域的資料科學家,我必須幫王義川護航一下,由王義川的逐字稿以無罪推定來判斷: a. 王義川有三筆資料,資料內容至少需要涵蓋去識別化的門號、該門號的使用者年紀、該門號在該活動期間在該活動地點停留總時數。為了能夠比較個活動族群的重疊性,門號必須是1to1的去識別化,白話來說該門號去識別化之後變成一條亂碼,例如0911111111->2%ddc*&DNJ$S@,而該門號在太陽花運動的資料裡去識別化後的亂碼要跟青鳥行動資料裡的亂碼一致,這樣才能夠判斷是否是同一支門號。
b. 年齡資料也做了去識別化,像是加亂數。例如該門號使用者實際年紀是30歲,但王義川拿到的有可能是28歲,也有可能是31歲。廠商給了一個+/-3歲的均勻隨機增減。然而這會使比對可信度略為降低。比如說一個人去年29歲手機門號是0911111111,今年0911111111的門號對應的年紀變成33歲,那門號持有者改變的機率是提高的,代表門號就算同時出現在兩場活動,也不代表是同一個人出現在兩場活動。如果忽略這個變數,直接用去識別化的門號做比對是可以得到一個正確性稍低但是仍有分析價值的群眾樣態。
a. 王義川有三筆資料,資料內容至少需要涵蓋去識別化的門號、該門號的使用者年紀、該門號在該活動期間在該活動地點停留總時數。為了能夠比較個活動族群的重疊性,門號必須是1to1的去識別化,白話來說該門號去識別化之後變成一條亂碼,例如0911111111->2%ddc*&DNJ$S@,而該門號在太陽花運動的資料裡去識別化後的亂碼要跟青鳥行動資料裡的亂碼一致,這樣才能夠判斷是否是同一支門號。
回覆續
資安原則是只提供研究用途所需的最少資訊,如果王義川的資料源有合乎這條原則,那安全下車是沒問題的。但是如果王義川拿到的去識別化的資料包含了以下額外資訊
1. 實際年紀
2. 居住城市,或甚至細微至郵遞區號
隨然該資料仍然沒有直接透露門號持有者的真實身份,但他們是有可能被成功肉搜而透露政黨傾向。Netflix 2006年提供了一筆去識別化資料作為程式競賽用途,德州大學研究學者利用其他資料做交叉比對,成功的反向找到了這筆資料裡面的部分真實身份。簡言之,新北市萬里區28歲女性在台灣可能不到三位,把這三位拿去比對暗網買到的其他個資,例如外洩的履歷表,就有機會比對出住址、學經歷、電話號碼等。再搭配政黨傾向,詐騙集團就有機會利用國會改革電話問卷的名義,高機率命中青鳥支持者請他們在政治熱情下對某些活動做捐款。
或者,由於他經常反串、半真半假開玩笑,比較麻煩的情況是下列兩種
1.故意挖洞給國眾兩黨跳
-->如果是這個那我只能說他太低估國眾+統媒炒作抹黑能力,不過只要他當初有想好解套說法能說服支持者就好,不然會難以收拾
2.嘴秋隨口說說
-->如果是這個就不如道歉算了