
perturbation
參考這一篇[python] LDA处理文档主题分布及分词、词频、tfidf计算_Python_杨秀璋的专栏-CSD... 先試做10個topics LDA做出來之後 1. 跑蠻快的 收斂不下去 2. 有一個topic都是簡體中文... 要瀘掉 或是留著也可以 3. 太多政治人物/記者 被我瀘掉 (當成stopwords) 其實在做clustering反而留著說不定效果更好 也許連頻道名稱留著也不錯 4. 有一兩個topic專門黑韓國瑜 一個topic黑蔡英文 支持他們兩個的topic也各有一個; 要做一個評估需要幾個topics的估計