姊鷗/Toko@此帳號已移轉
好痛苦R。好想要爬蟲軟體R
力不從心的Celestia
自幹(認真)
姊鷗/Toko@此帳號已移轉
力不從心的Celestia : 是說要怎麼寫出"給一個搜尋list,然後幫我直接複製下這些網頁"的內容
姊鷗/Toko@此帳號已移轉
(每次搜尋需要一分鐘以上Orz
力不從心的Celestia
寫起來最簡單但是用起來最麻煩的:按鍵精靈
寫起來比較麻煩但用起來比較簡單的:Google API
姊鷗/Toko@此帳號已移轉
搜尋的對象是內部資料庫QQ
GPS
selenium?
摺紙百哥
list夠大就自己寫啊 不會很麻煩
姊鷗/Toko@此帳號已移轉
GPS : 我試試看
姊鷗/Toko@此帳號已移轉
摺紙百哥 : 暫時不會寫 用什麼比較好啊 另外點一次搜尋會卡一分鐘以上
摺紙百哥
姊鷗/Toko@此帳號已移轉 : 就selenium吧 最接近人工操作
Inndy🌈
直接用 javascript
ɪᴛᴇᴍx / 道具
wget + python
姊鷗/Toko@此帳號已移轉
Inndy🌈 : 不甚會,等等研究之
Pзёя.pptx
Python urllib
姊鷗/Toko@此帳號已移轉
Pзёя.pptx : 可以爬https嗎
Pзёя.pptx
可以啊,只是python3我會遇到SSL跳出警告要特別關掉的狀況
沒有要做壞事的話Requests應該用起來會比較輕鬆
Pзёя.pptx
我常常送亂塞Cookies和User-Agent的封包出去所以最近比較常用urllib硬幹XDDD
Pзёя.pptx
只是內容如果不是全部存在於一開始的html裡面而是需要透過javascript再載入的話就還是得用Selenium了
姊鷗/Toko@此帳號已移轉
正在用selenium IDE 但是遇到了困難 想要抓取網頁某部分的表格存成文字不知道怎麼用
Pзёя.pptx
我沒用過IDE,寫code的話要去找到那個表格的element再做操作
Pзёя.pptx
你要不要看看那些內容有沒有在html的原始碼裡面啊,是的話用Requests撈回來就變字串操作了
姊鷗/Toko@此帳號已移轉
有是有 但是好像沒有特別給ID
ɪᴛᴇᴍx / 道具
Regular expression 去抽?
Inndy🌈
Python 可以用 requests + beautifulsoup
Inndy🌈
selenium 可以用 CSS selector 疊出來
載入新的回覆