最近接到一個專案要爬購物網站存mySQL 爬分類裡面各產品資訊+內頁詳細資訊 目前已經使用selenium+multithreading寫完 可惜速度不夠快 所以正改用request改寫 但發現不管用什麼方法(session、cookie、payload)都沒辦法取得首頁的商品資訊 已經把網路上能看的解決方式都看過一遍還是無解 另外也試過network的event(貌似是api? 把相關資訊post上去爆出ConnectionError: ('Connection aborted.' 所有能試解法都試過還是無法 有沒有精通的高手幫看一下還有甚麼辦法呢 附上連結 https://www.hktvmall.com/hktv/zh/%E8%B6%85%E7%B4%9A%E5%B7%BF%E5%A0%B4/%E8%B6%85%E7%B4%9A%E5%B8%82%E5%A0%B4/%E5%86%B7%E5%87%8D-%E6%80%A5%E5%87%8D%E9%A3%9F%E5%93%81/main/search?page=0&q=%3Arelevance%3Astreet%3Amain%3Acategory%3AAA11110000000 ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt-web.org.tw), 來自: 220.137.8.129 (臺灣) ※ 文章網址: https://ptt-web.org.tw/Soft_Job/M.1674129833.A.F17
keel90135: 標題分類跟縮網址都不會嗎... 01/19 20:13
Hsins: 非親非故又問的不清不楚,願意幫忙的人可能不多:( 01/19 20:23
MoonCode: 你瀏覽器看得到用爬蟲至少能抓個幾次(後續可能被擋) 01/19 20:40
MoonCode: 不要放棄 01/19 20:40
alihue: 直接回到完成的版本,然後複製多份同時跑,每支爬的範圍 01/19 22:01
boggicer: 這個包養網正妹好多 是真的嗎 01/19 22:01
alihue: 指定一下 01/19 22:01
victor21813: 先縮網址再說 01/19 22:40
chuchutaro: dynamic websites? 01/20 00:03
wayne5668944: 印象中好像如果是spa爬蟲抓不到(?) 01/20 00:25
vi000246: 如果你是女生 幫的人可能會多一點 01/20 00:33
Chiason: 真的有這麼多人在找包養 01/20 00:33
vi000246: 只能給你關鍵字 用wireshark或fiddler看request的raw 01/20 00:34
vi000246: data 想辨法模擬出一個一模一樣的request 01/20 00:34
vi000246: 這是get的raw data https://imgur.com/EViD6Ld 01/20 00:38
vi000246: 我網路亂抓的圖 我比較常用fiddler 你可以找個順手的 01/20 00:39
becca945: 你很不想問問題? 01/20 01:03
Markell: 有人可以分析一下包養平台的差異嗎 01/20 01:03
Murasaki0110: 問chatGPT 01/20 01:19
kanahela: 你給的這個網址,超級市場分類商品,點進去就timeout了 01/20 07:38
andy22543: 不好意思第一次在本版發文 01/20 09:17
andy22543: 感謝各位指教 01/20 09:17
surimodo: selenium 笑死 怎麼可能快 01/20 10:07
fuoya: 那個包養網人最多XD 01/20 10:07
HybridSC: 建議先去搞懂request的運作方式,不然以後也是一個頁面 01/20 15:44
HybridSC: 問一次 01/20 15:44
vi000246: 這兩本書我沒讀過 不過看目錄應該有你要的東西 01/20 16:41
vi000246: https://www.tenlong.com.tw/products/9787301322697 01/20 16:41
vi000246: https://www.tenlong.com.tw/products/9787115528735 01/20 16:41
Apasiri: 我妹上包養網被我發現= = 01/20 16:41
vi000246: 看反爬蟲那個章節就好 01/20 16:42
brucetu: selenium不夠快你不會多開幾台? 01/20 20:29
brucetu: 你在那邊破解反爬蟲的成本絕對夠你多開好幾台 01/20 20:30
vi000246: 多開幾台治標不治本 又浪費效能 學好request才是正解 01/21 00:34
andy22543: 謝謝各位意見,小弟再回去多研究request 01/21 11:04
litidi: 隔壁桌的人竟然在討論包養... 01/21 11:04
ReverieKai: 你要先了解request和Selenium兩個爬出來的網頁差異還 01/21 17:48
ReverieKai: 有運作原理 01/21 17:48
secretfly: 網路上能看的解決方式都看過一遍???你可以看兩遍 01/22 01:00
B0988698088: 連縮網址都不會你回去報資測會比較快 01/22 12:30
MoonCode: 凶 01/22 19:19
Merzario: 樓上是不是被包養 01/22 19:19
john0312: 有些反爬蟲技術就不是requests學好就能解決的 01/22 19:57
Belieeve: 弱弱問一下,用爬蟲進行商業行為(外包),這樣不違法 01/23 06:30
Belieeve: 嗎…? 01/23 06:30
vi000246: 爬蟲大部份都是違法的 請低調使用 01/23 20:07
Hsins: 之前請益過,有一說是真的要起訴的話,可能需要舉證爬蟲的 01/23 20:17
Muzaffer: 未看先猜這包養 01/23 20:17
Hsins: 運作造成的實際損失。有些爬蟲比如是電商販售物品,沒有公 01/23 20:17
Hsins: 開 API 又希望第三方行銷團隊或是其他平台想要同步銷售而去 01/23 20:17
Hsins: 爬取資料,好像就比較難判斷。建議還是了解一下對方意圖會 01/23 20:17
Hsins: 比較好 01/23 20:17
ripple0129: 真的不行就headless,慢了一點但是在背景慢慢爬,太 01/24 14:30
MIJice: 一定又是這包養 01/24 14:30
ripple0129: 快有時候反而也會被擋 01/24 14:30
Belieeve: 謝謝大家的解說 01/25 08:10
s25g5d4: 這種通常要另外打 API 拿到資料,如果習慣爬蟲寫法可以考 01/25 14:54
s25g5d4: 慮 jsdom,比 headless 再更輕量點 01/25 14:54
superpandal: 如上推文 爬蟲是灰色地帶 慢不一定是壞事 別人不讓你 01/25 22:44
SpyTime: 包養平台不意外 01/25 22:44
superpandal: 爬事小 告你事大 要快也不是不行 不論你用不用合法的 01/25 22:45
superpandal: 方式還是要付錢 直接跟購物網站接洽比較好 01/25 22:45
MonyemLi: 快速就是固定時間增加request數量,小型點的就營運會卡 01/26 00:58
MonyemLi: 了。 01/26 00:58