姊鷗/Toko@此帳號已移轉
@xkamome
說
Mon, Nov 14, 2016 9:05 AM
1
好痛苦R。好想要爬蟲軟體R
力不從心的Celestia
@ly2314
Mon, Nov 14, 2016 9:16 AM
自幹(認真)
姊鷗/Toko@此帳號已移轉
@xkamome
說
Mon, Nov 14, 2016 9:18 AM
力不從心的Celestia
: 是說要怎麼寫出"給一個搜尋list,然後幫我直接複製下這些網頁"的內容
姊鷗/Toko@此帳號已移轉
@xkamome
說
Mon, Nov 14, 2016 9:18 AM
(每次搜尋需要一分鐘以上Orz
力不從心的Celestia
@ly2314
Mon, Nov 14, 2016 9:19 AM
寫起來最簡單但是用起來最麻煩的:按鍵精靈
寫起來比較麻煩但用起來比較簡單的:Google API
姊鷗/Toko@此帳號已移轉
@xkamome
說
Mon, Nov 14, 2016 9:22 AM
搜尋的對象是內部資料庫QQ
GPS
@Gripalese
Mon, Nov 14, 2016 9:30 AM
selenium?
摺紙百哥
@beicoles
Mon, Nov 14, 2016 9:32 AM
list夠大就自己寫啊 不會很麻煩
姊鷗/Toko@此帳號已移轉
@xkamome
說
Mon, Nov 14, 2016 9:33 AM
GPS
: 我試試看
姊鷗/Toko@此帳號已移轉
@xkamome
說
Mon, Nov 14, 2016 9:33 AM
摺紙百哥
:
暫時不會寫
用什麼比較好啊 另外點一次搜尋會卡一分鐘以上
摺紙百哥
@beicoles
Mon, Nov 14, 2016 9:35 AM
姊鷗/Toko@此帳號已移轉
: 就selenium吧 最接近人工操作
Inndy🌈
@InndyXD
說
Mon, Nov 14, 2016 9:45 AM
直接用 javascript
ɪᴛᴇᴍx / 道具
@Itemx
Mon, Nov 14, 2016 10:14 AM
wget + python
姊鷗/Toko@此帳號已移轉
@xkamome
Mon, Nov 14, 2016 10:18 AM
Inndy🌈
: 不甚會,等等研究之
Pзёя.pptx
@peer4321
Mon, Nov 14, 2016 11:16 AM
Python urllib
姊鷗/Toko@此帳號已移轉
@xkamome
說
Mon, Nov 14, 2016 11:18 AM
Pзёя.pptx
: 可以爬https嗎
Pзёя.pptx
@peer4321
Mon, Nov 14, 2016 11:19 AM
可以啊,只是python3我會遇到SSL跳出警告要特別關掉的狀況
沒有要做壞事的話Requests應該用起來會比較輕鬆
Pзёя.pptx
@peer4321
Mon, Nov 14, 2016 11:21 AM
我常常送亂塞Cookies和User-Agent的封包出去所以最近比較常用urllib硬幹XDDD
Pзёя.pptx
@peer4321
Mon, Nov 14, 2016 11:23 AM
只是內容如果不是全部存在於一開始的html裡面而是需要透過javascript再載入的話就還是得用Selenium了
姊鷗/Toko@此帳號已移轉
@xkamome
說
Mon, Nov 14, 2016 11:24 AM
正在用selenium IDE 但是遇到了困難 想要抓取網頁某部分的表格存成文字不知道怎麼用
Pзёя.pptx
@peer4321
Mon, Nov 14, 2016 11:39 AM
我沒用過IDE,寫code的話要去找到那個表格的element再做操作
Pзёя.pptx
@peer4321
Mon, Nov 14, 2016 11:39 AM
你要不要看看那些內容有沒有在html的原始碼裡面啊,是的話用Requests撈回來就變字串操作了
姊鷗/Toko@此帳號已移轉
@xkamome
Mon, Nov 14, 2016 11:40 AM
有是有 但是好像沒有特別給ID
ɪᴛᴇᴍx / 道具
@Itemx
Mon, Nov 14, 2016 2:26 PM
Regular expression 去抽?
Inndy🌈
@InndyXD
Mon, Nov 14, 2016 3:37 PM
Python 可以用 requests + beautifulsoup
Inndy🌈
@InndyXD
Mon, Nov 14, 2016 3:38 PM
selenium 可以用 CSS selector 疊出來
載入新的回覆
寫起來比較麻煩但用起來比較簡單的:Google API
暫時不會寫用什麼比較好啊 另外點一次搜尋會卡一分鐘以上沒有要做壞事的話Requests應該用起來會比較輕鬆