藍(lán)海億觀網(wǎng)2020年07月21日 989
“Tokopedia是2009年創(chuàng)立的一家印尼電商平臺(tái),根據(jù)iPrice Group的一份報(bào)告,2019年7月至9月間,Tokopedia是印”
Tokopedia是2009年創(chuàng)立的一家印尼電商平臺(tái),根據(jù)iPrice Group的一份報(bào)告,2019年7月至9月間,Tokopedia是印尼訪問(wèn)量最大的跨境電商平臺(tái),月平均訪問(wèn)量達(dá)到659.53萬(wàn)人次。
本文以USB產(chǎn)品為例,使用Octoparse抓取Tokopedia產(chǎn)品名稱、價(jià)格、評(píng)級(jí)、圖片、URL等詳細(xì)信息。藍(lán)海億觀網(wǎng)了解到,要完成這些,需要USB產(chǎn)品的鏈接:https: // www .tokopedia.com /search?st =product&q=usb
使用Octoparse收集Tokopedia的USB產(chǎn)品信息步驟
1.首先打開目標(biāo)網(wǎng)頁(yè),即要收集信息的產(chǎn)品頁(yè)面,使用“Advanced Mode”創(chuàng)建任務(wù)。將URL粘貼到提取URL"Extraction URL"框中,點(diǎn)擊保存URL"Save URL"繼續(xù)下一步。
2.創(chuàng)建分頁(yè)循環(huán)(pagination loop),從多個(gè)頁(yè)面中,抓取所有數(shù)據(jù)。接著向下滾動(dòng),點(diǎn)擊網(wǎng)頁(yè)上的下一頁(yè)“Next Page”按鈕,在操作提示“Action Tips”中,點(diǎn)擊循環(huán)點(diǎn)擊下一頁(yè)“Loop click next page”。
Tokopedia將AJAX技術(shù)應(yīng)用于分頁(yè)按鈕(pagination button)。因此,在單擊分頁(yè)“Click to paginate”步驟中,要設(shè)置 AJAX Load。
取消選擇無(wú)響應(yīng)自動(dòng)重試“Auto retry when no response”。
勾選用AJAX加載頁(yè)面“Load the page with AJAX”。
設(shè)置“AJAX Timeout”。
3.建立一個(gè)循環(huán)項(xiàng)目“Loop Item”,循環(huán)點(diǎn)擊進(jìn)入每個(gè)產(chǎn)品的list。
當(dāng)創(chuàng)建一個(gè)“Loop Item”時(shí),需要從第一頁(yè)第一項(xiàng)開始。
在工作流程中,點(diǎn)擊“Go To Web Page”。
選擇工作流程中的分頁(yè)循環(huán)“pagination loop”。
這么做是為了讓Octoparse決定執(zhí)行順序,并在工作流程中的適當(dāng)位置,生成Loop Item。
當(dāng)創(chuàng)建一個(gè)產(chǎn)品的list,以刮?。╯crape)一個(gè)網(wǎng)站時(shí),有時(shí)list可能包括了幾個(gè)廣告“Ads”產(chǎn)品。為了在本例中排除廣告促銷產(chǎn)品,可以從該頁(yè)的第三行開始構(gòu)建Loop Item。
點(diǎn)擊第三行的第一個(gè)產(chǎn)品標(biāo)題。
點(diǎn)擊操作提示“Action Tips”中的全選“Select All”。
選擇循環(huán)點(diǎn)擊每個(gè)元素“Loop click each element”。
4.提取數(shù)據(jù),在頁(yè)面上點(diǎn)擊賣家需要的信息,在“Action Tips”中選擇提取數(shù)據(jù)“Extract data”。
從預(yù)定義(pre-defined)list中選擇,或自己輸入,來(lái)重命名字段。
5.通過(guò)修改XPath定制數(shù)據(jù)字段,提高某個(gè)數(shù)據(jù)字段的準(zhǔn)確性(可選)。
藍(lán)海億觀網(wǎng)獲悉,在本例中,price元素,并不總是位于不同細(xì)節(jié)頁(yè)面的相同位置。因此,為了避免這種不規(guī)則位置問(wèn)題,而導(dǎo)致的數(shù)據(jù)丟失,則需要修改Octoparse中的XPath,以確保能夠準(zhǔn)確地檢測(cè)到每個(gè)頁(yè)面上的price元素。
修改后的price字段XPath是//span[text()='Rp']/following-sibling::span
點(diǎn)擊自定義數(shù)據(jù)字段“Customize data field”。
選擇自定義XPath“Customize XPath”。
將修改后的XPath,粘貼到匹配的(Matching)XPath文本框中。
點(diǎn)擊“OK”保存結(jié)果。
6.運(yùn)行任務(wù)并獲取數(shù)據(jù)。
點(diǎn)擊開始提取“Start Extraction”。
選擇本地提取“Local Extraction”在計(jì)算機(jī)上運(yùn)行任務(wù)。
下圖是示例輸出:
(跨境電商新媒體-藍(lán)海億觀網(wǎng)egainnews)文末掃碼加入Tokopedia運(yùn)營(yíng)交流群,對(duì)接跨境電商優(yōu)質(zhì)資源。Coupang、Wayfair 、MercadoLibre等平臺(tái)入駐,品牌文案策劃及全網(wǎng)推廣、電商培訓(xùn)和孵化等服務(wù),請(qǐng)聯(lián)系我們。不得擅自改寫、轉(zhuǎn)載、復(fù)制、裁剪和編輯全部或部分內(nèi)容。
版權(quán)說(shuō)明:藍(lán)海億觀網(wǎng)倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán),未經(jīng)許可不得用于商業(yè)活動(dòng)。如當(dāng)前文章存在版權(quán)問(wèn)題,請(qǐng)聯(lián)系客服申訴處理。
藍(lán)海億觀網(wǎng)跨境賣家交流群!
跨境24H頭條資訊,關(guān)注跨境平臺(tái)最新政策推送行業(yè)最新動(dòng)態(tài)。
全球跨境市場(chǎng)分析、電商政策及選品思維邏輯解讀。
知名跨境大賣財(cái)報(bào)分析,真實(shí)案例分析站內(nèi)站外引流促單實(shí)操技巧!
掃碼入群,與同行共贏
留點(diǎn)想法
評(píng)論列表(0條)
藍(lán)海億觀網(wǎng)2020-05-06
藍(lán)海億觀網(wǎng)2019-12-31
藍(lán)海億觀網(wǎng)2025-05-22
藍(lán)海億觀網(wǎng)2020-11-17
藍(lán)海億觀網(wǎng)2020-08-03
藍(lán)海億觀網(wǎng)2019-04-29
藍(lán)海億觀網(wǎng)2020-08-24
藍(lán)海億觀網(wǎng)2021-04-30