藍海億觀網(wǎng)2020年07月09日 866
“在eBay上銷售的賣家,應(yīng)該監(jiān)控eBay上的產(chǎn)品價格,以獲得競爭優(yōu)勢。藍海億觀網(wǎng)了解到,定期從eBay上,獲取大規(guī)模的產(chǎn)品數(shù)據(jù),是一個極具挑”
在eBay上銷售的賣家,應(yīng)該監(jiān)控eBay上的產(chǎn)品價格,以獲得競爭優(yōu)勢。
藍海億觀網(wǎng)了解到,定期從eBay上,獲取大規(guī)模的產(chǎn)品數(shù)據(jù),是一個極具挑戰(zhàn)性的任務(wù)。本文將展示,使用python抓取eBay上的Galaxy Note 8和iPhone 8,手機產(chǎn)品數(shù)據(jù)的一個例子。
如何抓取eBay產(chǎn)品數(shù)據(jù)
1.選擇所需的信息
網(wǎng)頁抓取的首要任務(wù)是,識別目標網(wǎng)頁,賣家需要從這個網(wǎng)頁中,提取所有所需的信息。
抓取eBay的產(chǎn)品listing,首先要在eBay上搜索產(chǎn)品。
在頁面加載了該產(chǎn)品的所有listing后,賣家需要提取該頁面的URL。
舉個例子,假設(shè)賣家提取的URL是“https://www.ebay.com/sch/i.html?_from=R40&_nkw=galaxy+note+8&_sacat=0&_pgn=1“
注意這個URL中的兩個參數(shù),即“nkw”(new關(guān)鍵字)和“pgn”(頁碼)參數(shù)。
URL中的這些參數(shù),定義了搜索詞(search query)。
如果將“pgn”參數(shù)更改為2,則會打開Galaxy Note 8手機產(chǎn)品listing的第二頁,如果將“nkw”更改為iPhone X,則eBay將搜索iPhone X,并顯示相應(yīng)結(jié)果。
2.確定最后提取的標簽
完成目標網(wǎng)頁部分后,我們需要理解HTML布局。
在目標網(wǎng)頁上,右鍵選擇審查“inspect”,并打開開發(fā)人員工具窗口,或者使用鍵盤的CTRL+SHIFT+I。
在新窗口中,可以看到目標頁面的源代碼。
在本例中,所有產(chǎn)品都作為listing元素被提及,因此我們必須獲取所有l(wèi)isting。
為了獲取這些HTML元素,賣家需要一個與之相關(guān)的標識符(identifiers),可以是該元素的ID、任何類程名(class name)、特定元素的任何其他HTML屬性。
在本例,使用類程名(class name)作為標識符,所有l(wèi)isting都有相同的類程名,即s-item。
經(jīng)過進一步的審查,可以得到產(chǎn)品名稱和產(chǎn)品價格的類名(class name),分別為“s-item__title”和“s-item__price”。
3.將收集到的數(shù)據(jù),以結(jié)構(gòu)化格式存儲
有了提取器/標識符(extractors/identifiers)之后,下一步是從HTML內(nèi)容中,提取特定的部分。
完成之后,還需要將這些數(shù)據(jù),組織成合適的結(jié)構(gòu)化格式(structured format)。
創(chuàng)建一個表格,其中一列是所有產(chǎn)品名稱,另一列是它們的價格。
4.可視化結(jié)果(可選)
由于需要比較兩種不同的手機價格,賣家可以選擇可視化結(jié)果。
可視化結(jié)果不是網(wǎng)頁抓取的強制性步驟,而是將收集到的數(shù)據(jù),轉(zhuǎn)化為一些可操作數(shù)據(jù)。
賣家可以繪制箱線圖(boxplots),來了解Galaxy note 8和iPhone 8手機的價格分布。
上圖中,綠線是價格數(shù)據(jù)的中位數(shù)。
對于iPhone 8來說,大部分價格在INR 25k-35k之間,而大多數(shù)Galaxy Note 8手機的價格在25k-30k之間。
iPhone 8的價格變化要比Galaxy Note 8手機大得多,iPhone 8在eBay上的最低售價是15k,而Galaxy Note 8在eBay上的最低售價是22-23k。
所需的庫和安裝(libraries and Installation)
要實現(xiàn)網(wǎng)頁抓取,賣家需要Python, Pip(用于python的安裝包程序),以及python中的BeautifulSoup library。
另外,還需要“pandas and numpy library”將收集的數(shù)據(jù),組織成結(jié)構(gòu)化的格式。
1.安裝Python和Pip
賣家可以根據(jù)這個鏈接https : / /realpython.com /installing-python /安裝Python和Pip。
2.安裝Beautiful soup library
apt-get install python-bs4 pip install beautifulsoup4
3.安裝pandas and numpy
pip install pandas pip install numpy
(跨境電商新媒體-藍海億觀網(wǎng)egainnews)文末掃碼加入eBay運營交流群,對接跨境電商優(yōu)質(zhì)資源。Coupang、Wayfair 、MercadoLibre等平臺入駐,品牌文案策劃及全網(wǎng)推廣、電商培訓和孵化等服務(wù),請聯(lián)系我們。不得擅自改寫、轉(zhuǎn)載、復(fù)制、裁剪和編輯全部或部分內(nèi)容。
版權(quán)說明:藍海億觀網(wǎng)倡導(dǎo)尊重與保護知識產(chǎn)權(quán),未經(jīng)許可不得用于商業(yè)活動。如當前文章存在版權(quán)問題,請聯(lián)系客服申訴處理。
藍海億觀網(wǎng)跨境賣家交流群!
跨境24H頭條資訊,關(guān)注跨境平臺最新政策推送行業(yè)最新動態(tài)。
全球跨境市場分析、電商政策及選品思維邏輯解讀。
知名跨境大賣財報分析,真實案例分析站內(nèi)站外引流促單實操技巧!
掃碼入群,與同行共贏
留點想法
評論列表(0條)
藍海億觀網(wǎng)2020-08-20
藍海億觀網(wǎng)2021-04-15
藍海億觀網(wǎng)2021-06-30
藍海億觀網(wǎng)2020-03-30
藍海億觀網(wǎng)2020-06-01
藍海億觀網(wǎng)2019-11-21
藍海億觀網(wǎng)2022-09-01
藍海億觀網(wǎng)2025-09-17