420色情守門員懶虎
掰噗~
是嗎? (p-stare)
420色情守門員懶虎
1. 大熔爐的美國,人種資料本身就是個變因
2. CT跟X-ray的資料並不會寫種族百分比,設備機台的預設也不會有這種設定(?),通常都靠人工註記
3. 能夠去醫院的也是某些特定族群
4. 人類放射師都沒辦法完全依靠骨頭辨認人種,這些廠商使用的GT是有被挑戰的空間
5. 資料使用量是多少?不清楚
6. 基因序列還是會準一點
Scientia
團隊出來解釋
Fw: [新聞] AI藏種族歧視因子 清大跨國團隊揭醫
批踢踢實業坊 - Gossiping
420色情守門員懶虎
Scientia : 感謝提供。不過看起來他們的模型們在融合時也有點微妙。另一個問題是檢視algorithm,因為AI很有趣的一點是當我們的output只有A、B、C三種,然而我們給的input卻以上皆非,有經歷過的案子是,AI隨機給一個答案,或甚至空白,我們也不知道為何他就這樣給答案了,很調皮。
420色情守門員懶虎
看完期刊後的感想是,光資料來源的層面,篩選就是一項挑戰。
【醫院方面】
現有的制度運行起來非常麻煩。麻煩的原因可以想到的有:
資料輸入人的主觀判斷、資料提供病人對自身的了解的正確性、當病人被問到種族是時是否有願意提供、病人來院的方式(普通門診/急診[昏迷])、醫院工作站機器內建的輸入資料的類型(是否夠全面)。
420色情守門員懶虎
【病人方面】
表明自身人種時,有那麼一點selfID的味道,不確定性很高。會回到一開始思考的問題,多元種族環境的資料變因很大。
420色情守門員懶虎
【開發醫療AI廠商】
1. 使用的資料,去識別化的程度要到哪裡?文章有提到AHRF的資料集,無法確定是否資料標記時是否有錯誤。
2. 其中這份研究的資料是self-reported race as the ground truth。
420色情守門員懶虎
【其他】
1. 這份研究的年齡分佈很廣,範圍切割成5組,其中還包含20歲以下的族群。依照經驗,醫療AI輔助系統,研究20歲以下的人類,是另一個挑戰項目,而20歲以下比較多的醫療AI輔助產品是骨齡(Bone age assessment)。
2. 資料量過於龐大,對於訓練AI有時會是反效果,我們跟工程師內部對話是:AI爛掉。
3. 選擇特定資料類型,產出特定結果,是可以達成的。
4. 會先定義好Input跟Output,在依照關聯性撰寫algorithm,其中Input資料的選擇(那些對於訓練有幫助,那些會導致訓練判斷成其它結果)是業界的一項挑戰。選完Input資料後還要做標記,又是另一項挑戰,而且標記的過程中有時會遇到當初沒有想到的額外問題。
420色情守門員懶虎
使用的Input資料是從2010/1/1-2020/12/31這個範圍內,算是很新的資料了,但就因為這樣,我們需要花時間再去探討這些資料的分佈。(其中一個理想的點是這些資料沒有重複)
420色情守門員懶虎
能做classification類型的廠商,基本上財力雄厚
載入新的回覆