漂J
@floatj
好奇
Sat, Aug 12, 2023 8:02 PM
爬蟲的套件好像還是 Python 的生態系比較豐富,不知道為什麼
漂J
@floatj
Sat, Aug 12, 2023 8:03 PM
為了解決三不五時被封鎖的問題,只好把爬蟲換成某個 Python 寫的套件
原本自己用 JS 土砲的太爛了,不知道為什麼被封鎖的機率就是比較高
漂J
@floatj
Sat, Aug 12, 2023 8:03 PM
不過之前用一陣子也沒這麼嚴重,只能怪蜥蜴人最近動作頻頻
香草香草香
@mudream4869
Sat, Aug 12, 2023 10:36 PM
🤔
l• ܫ•) Davyキュルッ
@david50407
Sat, Aug 12, 2023 10:40 PM
本來就不能爬吧 也不能怪蜥蜴人
漂J
@floatj
Sun, Aug 13, 2023 1:52 AM
l• ܫ•) Davyキュルッ
: 可是蜥蜴人放任 API bugs 壞掉一兩年都不修
不能因為嗎賺不到廣告就不修啊
,看官方回報區下面都寫還是會遇到一樣的問題
l• ܫ•) Davyキュルッ
@david50407
Sun, Aug 13, 2023 2:40 AM
API 又沒有跟你保證 SLA 壞掉不修有什麼問題嗎
漂J
@floatj
Sun, Aug 13, 2023 3:14 AM
l• ܫ•) Davyキュルッ
: 壞掉不修沒問題啊,但是壞掉一年不修怪怪的吧
debɐnchery
@xatierlike
Sun, Aug 13, 2023 3:21 AM
漂J
: 不會影響營利的話就不用修啊
漂J
@floatj
Sun, Aug 13, 2023 3:27 AM
debɐnchery
: 那應該把 API 直接下架比較好吧
文件明明有可是又不修很奇怪欸
漂J
@floatj
Sun, Aug 13, 2023 3:28 AM
而且整個壞掉就算了,偏偏是很奇怪的 bug
日 落
@zeroplex
說
Sun, Aug 13, 2023 3:32 AM
正在練習寫 PHP 的,有興趣嗎? XD
漂J
@floatj
Sun, Aug 13, 2023 3:34 AM
日 落
: 好久沒寫 PHP 了
漂J
@floatj
Sun, Aug 13, 2023 3:35 AM
是說今天在高鐵上發現又壞了,查了一下手機版網頁發現果然被 ban,看來 Python 的套件沒比較厲害
louisliu
@louisliu
Sun, Aug 13, 2023 3:56 AM
用真正的 Browser 爬呢?
l• ܫ•) Davyキュルッ
@david50407
Sun, Aug 13, 2023 4:31 AM
壞掉一年也不會怎樣啊
而且還要特地去下架它也是要成本人力的
debɐnchery
@xatierlike
Sun, Aug 13, 2023 7:50 AM
l• ܫ•) Davyキュルッ
: 對啊 而且說不定他們內部有用到部分會動的部分 所以暫時也不會拔
漂J
@floatj
Sun, Aug 13, 2023 1:47 PM
louisliu
: 本來想的方向確實是用 puppeteer 開啟桌面版的網頁去爬,但桌面版的有專門設計很多反爬蟲的措施,所以很難爬 QQ
漂J
@floatj
Sun, Aug 13, 2023 1:49 PM
Sun, Aug 13, 2023 1:50 PM
不過我後來想到一個新方法,因為 API 只有取清單的那個有 bug,取單一篇內容的 API 是正常的,所以可以先用爬蟲抓取那個頁面上所有連結的清單,然後把網址用 regexp 過濾出來,就可以得到完整的 ID 清單,再用取單一篇內容的 API 依照 ID 清單逐一查詢,把每一篇的內容補齊就好
日 落
@zeroplex
說
Sun, Aug 13, 2023 2:10 PM
puppeteer 不錯用,但我還是有遇到一些開不起來的網頁
載入新的回覆
原本自己用 JS 土砲的太爛了,不知道為什麼被封鎖的機率就是比較高
不能因為嗎賺不到廣告就不修啊,看官方回報區下面都寫還是會遇到一樣的問題文件明明有可是又不修很奇怪欸
而且還要特地去下架它也是要成本人力的