姊鷗/Toko@此帳號已移轉 - p/lxvj3t - 讀噗

姊鷗/Toko@此帳號已移轉

@xkamome

說

Mon, Nov 14, 2016 9:05 AM

1

好痛苦R。好想要爬蟲軟體R

力不從心的Celestia

@ly2314

Mon, Nov 14, 2016 9:16 AM

自幹（認真）

姊鷗/Toko@此帳號已移轉

@xkamome

說

Mon, Nov 14, 2016 9:18 AM

力不從心的Celestia : 是說要怎麼寫出"給一個搜尋list，然後幫我直接複製下這些網頁"的內容

姊鷗/Toko@此帳號已移轉

@xkamome

說

Mon, Nov 14, 2016 9:18 AM

(每次搜尋需要一分鐘以上Orz

力不從心的Celestia

@ly2314

Mon, Nov 14, 2016 9:19 AM

寫起來最簡單但是用起來最麻煩的：按鍵精靈
寫起來比較麻煩但用起來比較簡單的：Google API

姊鷗/Toko@此帳號已移轉

@xkamome

說

Mon, Nov 14, 2016 9:22 AM

搜尋的對象是內部資料庫QQ

@Gripalese

Mon, Nov 14, 2016 9:30 AM

selenium?

@beicoles

Mon, Nov 14, 2016 9:32 AM

list夠大就自己寫啊不會很麻煩

姊鷗/Toko@此帳號已移轉

@xkamome

說

Mon, Nov 14, 2016 9:33 AM

GPS : 我試試看

姊鷗/Toko@此帳號已移轉

@xkamome

說

Mon, Nov 14, 2016 9:33 AM

摺紙百哥 : ~~暫時不會寫~~ 用什麼比較好啊另外點一次搜尋會卡一分鐘以上

@beicoles

Mon, Nov 14, 2016 9:35 AM

姊鷗/Toko@此帳號已移轉 : 就selenium吧最接近人工操作

@InndyXD

說

Mon, Nov 14, 2016 9:45 AM

直接用 javascript

ɪᴛᴇᴍx / 道具

@Itemx

Mon, Nov 14, 2016 10:14 AM

wget + python

姊鷗/Toko@此帳號已移轉

@xkamome

Mon, Nov 14, 2016 10:18 AM

Inndy🌈 : 不甚會，等等研究之

@peer4321

Mon, Nov 14, 2016 11:16 AM

Python urllib

姊鷗/Toko@此帳號已移轉

@xkamome

說

Mon, Nov 14, 2016 11:18 AM

Pзёя.pptx : 可以爬https嗎

@peer4321

Mon, Nov 14, 2016 11:19 AM

可以啊，只是python3我會遇到SSL跳出警告要特別關掉的狀況
沒有要做壞事的話Requests應該用起來會比較輕鬆

@peer4321

Mon, Nov 14, 2016 11:21 AM

我常常送亂塞Cookies和User-Agent的封包出去所以最近比較常用urllib硬幹XDDD

@peer4321

Mon, Nov 14, 2016 11:23 AM

只是內容如果不是全部存在於一開始的html裡面而是需要透過javascript再載入的話就還是得用Selenium了

姊鷗/Toko@此帳號已移轉

@xkamome

說

Mon, Nov 14, 2016 11:24 AM

正在用selenium IDE 但是遇到了困難想要抓取網頁某部分的表格存成文字不知道怎麼用

@peer4321

Mon, Nov 14, 2016 11:39 AM

我沒用過IDE，寫code的話要去找到那個表格的element再做操作

@peer4321

Mon, Nov 14, 2016 11:39 AM

你要不要看看那些內容有沒有在html的原始碼裡面啊，是的話用Requests撈回來就變字串操作了

姊鷗/Toko@此帳號已移轉

@xkamome

Mon, Nov 14, 2016 11:40 AM

有是有但是好像沒有特別給ID

ɪᴛᴇᴍx / 道具

@Itemx

Mon, Nov 14, 2016 2:26 PM

Regular expression 去抽？

@InndyXD

Mon, Nov 14, 2016 3:37 PM

Python 可以用 requests + beautifulsoup

@InndyXD

Mon, Nov 14, 2016 3:38 PM

selenium 可以用 CSS selector 疊出來

載入新的回覆