漂J
爬蟲的套件好像還是 Python 的生態系比較豐富,不知道為什麼
漂J
為了解決三不五時被封鎖的問題,只好把爬蟲換成某個 Python 寫的套件

原本自己用 JS 土砲的太爛了,不知道為什麼被封鎖的機率就是比較高
漂J
不過之前用一陣子也沒這麼嚴重,只能怪蜥蜴人最近動作頻頻
香草香草香
🤔
l• ܫ•) Davyキュルッ
本來就不能爬吧 也不能怪蜥蜴人
漂J
l• ܫ•) Davyキュルッ : 可是蜥蜴人放任 API bugs 壞掉一兩年都不修不能因為嗎賺不到廣告就不修啊,看官方回報區下面都寫還是會遇到一樣的問題
l• ܫ•) Davyキュルッ
API 又沒有跟你保證 SLA 壞掉不修有什麼問題嗎
漂J
l• ܫ•) Davyキュルッ : 壞掉不修沒問題啊,但是壞掉一年不修怪怪的吧
debɐnchery
漂J : 不會影響營利的話就不用修啊
漂J
debɐnchery : 那應該把 API 直接下架比較好吧

文件明明有可是又不修很奇怪欸
漂J
而且整個壞掉就算了,偏偏是很奇怪的 bug
日 落
正在練習寫 PHP 的,有興趣嗎? XD
漂J
日 落 : 好久沒寫 PHP 了
漂J
是說今天在高鐵上發現又壞了,查了一下手機版網頁發現果然被 ban,看來 Python 的套件沒比較厲害
louisliu
用真正的 Browser 爬呢?
l• ܫ•) Davyキュルッ
壞掉一年也不會怎樣啊
而且還要特地去下架它也是要成本人力的
debɐnchery
l• ܫ•) Davyキュルッ : 對啊 而且說不定他們內部有用到部分會動的部分 所以暫時也不會拔
漂J
louisliu : 本來想的方向確實是用 puppeteer 開啟桌面版的網頁去爬,但桌面版的有專門設計很多反爬蟲的措施,所以很難爬 QQ
漂J
不過我後來想到一個新方法,因為 API 只有取清單的那個有 bug,取單一篇內容的 API 是正常的,所以可以先用爬蟲抓取那個頁面上所有連結的清單,然後把網址用 regexp 過濾出來,就可以得到完整的 ID 清單,再用取單一篇內容的 API 依照 ID 清單逐一查詢,把每一篇的內容補齊就好
日 落
puppeteer 不錯用,但我還是有遇到一些開不起來的網頁
載入新的回覆