p/pcqpn2

漂Ｊ

@floatj

好奇

Sat, Aug 12, 2023 8:02 PM

爬蟲的套件好像還是 Python 的生態系比較豐富，不知道為什麼

漂Ｊ

@floatj

Sat, Aug 12, 2023 8:03 PM

為了解決三不五時被封鎖的問題，只好把爬蟲換成某個 Python 寫的套件

原本自己用 JS 土砲的太爛了，不知道為什麼被封鎖的機率就是比較高

漂Ｊ

@floatj

Sat, Aug 12, 2023 8:03 PM

不過之前用一陣子也沒這麼嚴重，只能怪蜥蜴人最近動作頻頻

香草香草香

@mudream4869

Sat, Aug 12, 2023 10:36 PM

🤔

l• ܫ•) Davyキュルッ

@david50407

Sat, Aug 12, 2023 10:40 PM

本來就不能爬吧也不能怪蜥蜴人

漂Ｊ

@floatj

Sun, Aug 13, 2023 1:52 AM

l• ܫ•) Davyキュルッ : 可是蜥蜴人放任 API bugs 壞掉一兩年都不修~~不能因為嗎賺不到廣告就不修啊~~，看官方回報區下面都寫還是會遇到一樣的問題

l• ܫ•) Davyキュルッ

@david50407

Sun, Aug 13, 2023 2:40 AM

API 又沒有跟你保證 SLA 壞掉不修有什麼問題嗎

漂Ｊ

@floatj

Sun, Aug 13, 2023 3:14 AM

l• ܫ•) Davyキュルッ : 壞掉不修沒問題啊，但是壞掉一年不修怪怪的吧

debɐnchery

@xatierlike

Sun, Aug 13, 2023 3:21 AM

漂Ｊ : 不會影響營利的話就不用修啊

漂Ｊ

@floatj

Sun, Aug 13, 2023 3:27 AM

debɐnchery : 那應該把 API 直接下架比較好吧

文件明明有可是又不修很奇怪欸

漂Ｊ

@floatj

Sun, Aug 13, 2023 3:28 AM

而且整個壞掉就算了，偏偏是很奇怪的 bug

日落

@zeroplex

說

Sun, Aug 13, 2023 3:32 AM

正在練習寫 PHP 的，有興趣嗎？ XD

漂Ｊ

@floatj

Sun, Aug 13, 2023 3:34 AM

日落 : 好久沒寫 PHP 了

漂Ｊ

@floatj

Sun, Aug 13, 2023 3:35 AM

是說今天在高鐵上發現又壞了，查了一下手機版網頁發現果然被 ban，看來 Python 的套件沒比較厲害

louisliu

@louisliu

Sun, Aug 13, 2023 3:56 AM

用真正的 Browser 爬呢？

l• ܫ•) Davyキュルッ

@david50407

Sun, Aug 13, 2023 4:31 AM

壞掉一年也不會怎樣啊
而且還要特地去下架它也是要成本人力的

debɐnchery

@xatierlike

Sun, Aug 13, 2023 7:50 AM

l• ܫ•) Davyキュルッ : 對啊而且說不定他們內部有用到部分會動的部分所以暫時也不會拔

漂Ｊ

@floatj

Sun, Aug 13, 2023 1:47 PM

louisliu : 本來想的方向確實是用 puppeteer 開啟桌面版的網頁去爬，但桌面版的有專門設計很多反爬蟲的措施，所以很難爬 QQ

漂Ｊ

@floatj

Sun, Aug 13, 2023 1:49 PM

Sun, Aug 13, 2023 1:50 PM

不過我後來想到一個新方法，因為 API 只有取清單的那個有 bug，取單一篇內容的 API 是正常的，所以可以先用爬蟲抓取那個頁面上所有連結的清單，然後把網址用 regexp 過濾出來，就可以得到完整的 ID 清單，再用取單一篇內容的 API 依照 ID 清單逐一查詢，把每一篇的內容補齊就好

日落

@zeroplex

說

Sun, Aug 13, 2023 2:10 PM

puppeteer 不錯用，但我還是有遇到一些開不起來的網頁