2011年7月10日 星期日

eBay如何分析非結構性資料

http://www.ithome.com.tw/itadm/article.php?c=67971

文/辜雅蕾 2011-06-05

eBay開發了可同時處理結構與非結構性資料的平臺Singularity,找出非結構性資料中可結構化的部分,再進行分析,解決資料倉儲僅能分析結構性資料的挑戰


過往eBay擅長利用資料倉儲進行網站行為分析,但近年來由於動態網頁普及,增加了不少半結構化或是非結構化的資料,也使得eBay不能完全仰賴專門分析結構化資料的資料倉儲系統。

eBay分析平臺高級總監Oliver Ratzesberger表示,近年來在分析資料碰到最大的挑戰就是半結構化與非結構化資料。他認為,既有的資料倉儲系統分析結構化資料的能力都很好,但 是卻無法同時處理結構與非結構化的資料。於是,他們決定先建立一個能夠同時處理結構與非結構性資料的平臺,再放進資料倉儲中進行關連性分析。

eBay分析平臺高級總監Oliver Ratzesberger表示,今年將把Hadoop的技術整合進Teradata的資料倉儲系統中,協助分析巨大資料。

eBay擁有全世界最大的資料倉儲系統,對eBay來說,必須靠著不斷分析買家在網站上的瀏覽行為,來增加買賣家媒合的機會,像是讓買家更快更精準的搜尋 到所需要的產品等。舉例來說,去年eBay曾經推出讓買家可以退貨的服務,只要買家在eBay上購買任何商品,一旦發現問題,eBay都可以保證讓買家退 貨。Ratzesberger表示,這些都是透過分析買家瀏覽網站的行為後,所規畫的行銷活動,也確實提高了銷售數字。

Ratzesberger表示,2002年時,eBay的資料量大約為10TB,2009年時,資料量已經到了2PB,近2年,資料量增加的更快,幾乎是 每年成長了2倍的資料量,現在,eBay每天就有50TB的資料量。而其中很大一部份就是來自於非結構化資料與半結構化資料的分析。

就以網頁點擊率來說,eBay過去會先分類點擊特性,像是IP位址、時間、URL、使用者所使用的瀏覽器等,放置在不同欄位交叉分析。不過,現在網頁都屬動態頁面,網頁的畫面總是不斷變化,這就增加他們分析顧客購買行為如何改變的困難度。

為了解決非結構化資料不容易分析的難題,eBay將所有資料從結構到非結構分為4種,在結構化的資料中可以直接用快取備份以及資料倉儲去分析處理資料的關 連性,半結構化的資料則由他們自行開發可同時處理結構與非結構資料的平臺Singularity處理,非結構化的資料則由Hadoop的技術處理。

將半結構化的資料集中放置單一欄位,再找出可對應數值
eBay是在4年多前建立了Singularity的平臺,可將半結構化的資料轉化成為結構化的資料後,再建立分析模型,減少需要分析資料的量。以網頁點 擊率來說,過去的欄位仍保留,其他較為複雜的資料就放置在另一個欄位中,在選取分析資料時,就可以特定時間,經過相對應的數值匹配,找到符合的概念與數 值,再將這些數值加入模型中計算。Ratzesberger認為,只將半結構化數據中有需要的部分拉出來作分析,這種作法對分析非結構化數據是很有幫助 的。

2年半前,eBay在這個平臺又加入了Hadoop的技術,主力在於分析非結構化的資料,可以平面文件的方式儲存非結構化資料,再進行轉化。 Ratzesberger表示,現在這個平臺可以處理結構與非結構化的資料量已達40PB,eBay還打算在今年進一步將Hadoop的技術整合進 Teradata的資料倉儲系統中,有利於處理大量的資料。文⊙辜雅蕾