p/3fvw973mo9

@Turtle56

Sun, Jun 2, 2024 1:06 PM

11

7

Dr. E (嘴哥) Ph.D (@dr.eloquence) on Threads

身為一個資安領域的資料科學家，我必須幫王義川護航一下，由王義川的逐字稿以無罪推定來判斷：
a. 王義川有三筆資料，資料內容至少需要涵蓋去識別化的門號、該門號的使用者年紀、該門號在該活動期間在該活動地點停留總時數。為了能夠比較個活動族群的重疊性，門號必須是1to1的去識別化，白話來說該門號去識別化之後變成一條亂碼，例如0911111111->2%ddc*&DNJ$S@，而該門號在太陽花運動的資料裡去識別化後的亂碼要跟青鳥行動資料裡的亂碼一致，這樣才能夠判斷是否是同一支門號。

掰噗~

@baipu

說

Sun, Jun 2, 2024 1:06 PM

這個問題問得很好, 我們請樓下來回答

~龜苓膏~

@Turtle56

Sun, Jun 2, 2024 1:07 PM

b. 年齡資料也做了去識別化，像是加亂數。例如該門號使用者實際年紀是30歲，但王義川拿到的有可能是28歲，也有可能是31歲。廠商給了一個+/-3歲的均勻隨機增減。然而這會使比對可信度略為降低。比如說一個人去年29歲手機門號是0911111111，今年0911111111的門號對應的年紀變成33歲，那門號持有者改變的機率是提高的，代表門號就算同時出現在兩場活動，也不代表是同一個人出現在兩場活動。如果忽略這個變數，直接用去識別化的門號做比對是可以得到一個正確性稍低但是仍有分析價值的群眾樣態。

回覆續

~龜苓膏~

@Turtle56

Sun, Jun 2, 2024 1:07 PM

王義川的講法主要是想闡述青鳥是自發性的公民活動，而且有非常多非積極的民進黨支持者參與了這場活動，代表有很多偏中間的選民不認同國眾的立法程序和立法內容。但也可以解釋成民進黨這波真假資訊連擊成功地對平常沒有積極參與政治的公民產生情緒效果。

資安原則是只提供研究用途所需的最少資訊，如果王義川的資料源有合乎這條原則，那安全下車是沒問題的。但是如果王義川拿到的去識別化的資料包含了以下額外資訊
1. 實際年紀
2. 居住城市，或甚至細微至郵遞區號

~龜苓膏~

@Turtle56

Sun, Jun 2, 2024 1:07 PM

3. 性別

隨然該資料仍然沒有直接透露門號持有者的真實身份，但他們是有可能被成功肉搜而透露政黨傾向。Netflix 2006年提供了一筆去識別化資料作為程式競賽用途，德州大學研究學者利用其他資料做交叉比對，成功的反向找到了這筆資料裡面的部分真實身份。簡言之，新北市萬里區28歲女性在台灣可能不到三位，把這三位拿去比對暗網買到的其他個資，例如外洩的履歷表，就有機會比對出住址、學經歷、電話號碼等。再搭配政黨傾向，詐騙集團就有機會利用國會改革電話問卷的名義，高機率命中青鳥支持者請他們在政治熱情下對某些活動做捐款。

Thinker

@Thinker

Sun, Jun 2, 2024 5:40 PM

「欲加之罰，何患無辭」這就是這件事的情況。從專業的角度來看，根本離監控人民十萬八千里，雖然十萬八千里還是可能到達的了。但牽扯成現在的情況，特別有些人還不是完全沒有相關背景的，我就覺得惡意滿滿。

Thinker

@Thinker

Sun, Jun 2, 2024 5:41 PM

從這件事，也能看出台灣被分化得多嚴重。令人擔心。

林祖媽

@Linzoma

Sun, Jun 2, 2024 6:38 PM

剛才王義川在節目上的說法：他並沒有拿到所謂的個資，因為用看的就知道去的人跟519不同。我猜測當初他的意思應該是，他看到的人群分佈就是明顯不同，要是用基地台電信分析也能描述出人群輪廓不同，

或者，由於他經常反串、半真半假開玩笑，比較麻煩的情況是下列兩種
1.故意挖洞給國眾兩黨跳
-->如果是這個那我只能說他太低估國眾+統媒炒作抹黑能力，不過只要他當初有想好解套說法能說服支持者就好，不然會難以收拾
2.嘴秋隨口說說
-->如果是這個就不如道歉算了