p/nqzm0a

@perturbation

Tue, Mar 24, 2020 7:42 AM

Tue, Mar 24, 2020 7:44 AM

參考這一篇[python] LDA处理文档主题分布及分词、词频、tfidf计算_Python_杨秀璋的专栏-CSD... 先試做10個topics LDA做出來之後 1. 跑蠻快的收斂不下去 2. 有一個topic都是簡體中文... 要瀘掉或是留著也可以 3. 太多政治人物/記者被我瀘掉 (當成stopwords) 其實在做clustering反而留著說不定效果更好也許連頻道名稱留著也不錯 4. 有一兩個topic專門黑韓國瑜一個topic黑蔡英文支持他們兩個的topic也各有一個; 要做一個評估需要幾個topics的估計