日日麻批-日日麻批免费视频-日日麻批免费视频播放-日日麻批视频-国产4tube在线播放-国产69精品久久久久9999

超市貨源批發市場
淘寶貨源分銷平臺
 
 
當前位置: 貨源批發網 » 網商學院 » 淘寶數據分析 » 淘寶數據魔方技術架構解析

淘寶數據魔方技術架構解析

放大字體  縮小字體 發布日期:2023-12-16 07:36:19  來源:電商聯盟  作者:樂發網  瀏覽次數:5

淘寶網擁有國內最具商業價值的海量數據。截至當前,每天有超過30億的店鋪、商品瀏覽記錄,10億在線商品數,上千萬的成交、收藏和評價數據。如何從這些數據中挖掘出真正的商業價值,進而幫助淘寶、商家進行企業的數據化運營,幫助消費者進行理性的購物決策,是淘寶數據平臺與產品部的使命。

為此,我們進行了一系列數據產品的研發,比如為大家所熟知的量子統計、數據魔方和淘寶指數等。盡管從業務層面來講,數據產品的研發難度并不高;但在 “海量”的限定下,數據產品的計算、存儲和檢索難度陡然上升。本文將以數據魔方為例,向大家介紹淘寶在海量數據產品技術架構方面的探索。

淘寶海量數據產品技術架構

數據產品的一個最大特點是數據的非實時寫入,正因為如此,我們可以認為,在一定的時間段內,整個系統的數據是只讀的。這為我們設計緩存奠定了非常重要的基礎。

圖1 淘寶海量數據產品技術架構

按照數據的流向來劃分,我們把淘寶數據產品的技術架構分為五層(如圖1所示),分別是數據源、計算層、存儲層、查詢層和產品層。位于架構頂端的是我們的數據來源層,這里有淘寶主站的用戶、店鋪、商品和交易等數據庫,還有用戶的瀏覽、搜索等行為日志等。這一系列的數據是數據產品最原始的生命力所在。

在數據源層實時產生的數據,通過淘寶主研發的數據傳輸組件DataX、DbSync和Timetunnel準實時地傳輸到一個有1500個節點的Hadoop集群上,這個集群我們稱之為“云梯”,是計算層的主要組成部分。在“云梯”上,我們每天有大約40000個作業對1.5PB的原始數據按照產品需求進行不同的MapReduce計算。這一計算過程通常都能在凌晨兩點之前完成。相對于前端產品看到的數據,這里的計算結果很可能是一個處于中間狀態的結果,這往往是在數據冗余與前端計算之間做了適當平衡的結果。

不得不提的是,一些對實效性要求很高的數據,例如針對搜索詞的統計數據,我們希望能盡快推送到數據產品前端。這種需求再采用“云梯”來計算效率將是比較低的,為此我們做了流式數據的實時計算平臺,稱之為“銀河”。“銀河”也是一個分布式系統,它接收來自TimeTunnel的實時消息,在內存中做實時計算,并把計算結果在盡可能短的時間內刷新到NoSQL存儲設備中,供前端產品調用。

容易理解,“云梯”或者“銀河”并不適合直接向產品提供實時的數據查詢服務。這是因為,對于“云梯”來說,它的定位只是做離線計算的,無法支持較高的性能和并發需求;而對于“銀河”而言,盡管所有的代碼都掌握在我們手中,但要完整地將數據接收、實時計算、存儲和查詢等功能集成在一個分布式系統中,避免不了分層,最終仍然落到了目前的架構上。

為此,我們針對前端產品設計了專門的存儲層。在這一層,我們有基于MySQL的分布式關系型數據庫集群MyFOX和基于HBase的NoSQL存儲集群Prom,在后面的文字中,我將重點介紹這兩個集群的實現原理。除此之外,其他第三方的模塊也被我們納入存儲層的范疇。

存儲層異構模塊的增多,對前端產品的使用帶來了挑戰。為此,我們設計了通用的數據中間層——glider——來屏蔽這個影響。glider以HTTP協議對外提供restful方式的接口。數據產品可以通過一個唯一的URL獲取到它想要的數據。

以上是淘寶海量數據產品在技術架構方面的一個概括性的介紹,接下來我將重點從四個方面闡述數據魔方設計上的特點。

關系型數據庫仍然是王道

關系型數據庫(RDBMS)自20世紀70年代提出以來,在工業生產中得到了廣泛的使用。經過三十多年的長足發展,誕生了一批優秀的數據庫軟件,例如Oracle、MySQL、DB2、Sybase和SQL Server等。

圖2 MyFOX中的數據增長曲線

盡管相對于非關系型數據庫而言,關系型數據庫在分區容忍性(Tolerance to Network Partitions)方面存在劣勢,但由于它強大的語義表達能力以及數據之間的關系表達能力,在數據產品中仍然占據著不可替代的作用。

淘寶數據產品選擇MySQL的MyISAM引擎作為底層的數據存儲引擎。在此基礎上,為了應對海量數據,我們設計了分布式MySQL集群的查詢代理層——MyFOX,使得分區對前端應用透明。

圖3 MyFOX的數據查詢過程

目前,存儲在MyFOX中的統計結果數據已經達到10TB,占據著數據魔方總數據量的95%以上,并且正在以每天超過6億的增量增長著(如圖2所示)。這些數據被我們近似均勻地分布到20個MySQL節點上,在查詢時,經由MyFOX透明地對外服務(如圖3所示)。

圖4 MyFOX節點結構

值得一提的是,在MyFOX現有的20個節點中,并不是所有節點都是“平等”的。一般而言,數據產品的用戶更多地只關心“最近幾天”的數據,越早的數據,越容易被冷落。為此,出于硬件成本考慮,我們在這20個節點中分出了“熱節點”和“冷節點”(如圖4所示)。

顧名思義,“熱節點”存放最新的、被訪問頻率較高的數據。對于這部分數據,我們希望能給用戶提供盡可能快的查詢速度,所以在硬盤方面,我們選擇了每分鐘15000轉的SAS硬盤,按照一個節點兩臺機器來計算,單位數據的存儲成本約為4.5W/TB。相對應地,“冷數據”我們選擇了每分鐘7500轉的SATA硬盤,單碟上能夠存放更多的數據,存儲成本約為1.6W/TB。

將冷熱數據進行分離的另外一個好處是可以有效降低內存磁盤比。從圖4可以看出,“熱節點”上單機只有24GB內存,而磁盤裝滿大約有1.8TB(300 * 12 * 0.5 / 1024),內存磁盤比約為4:300,遠遠低于MySQL服務器的一個合理值。內存磁盤比過低導致的后果是,總有一天,即使所有內存用完也存不下數據的索引了——這個時候,大量的查詢請求都需要從磁盤中讀取索引,效率大打折扣。

NoSQL是SQL的有益補充

在MyFOX出現之后,一切都看起來那么完美,開發人員甚至不會意識到MyFOX的存在,一條不用任何特殊修飾的SQL語句就可以滿足需求。這個狀態持續了很長一段時間,直到有一天,我們碰到了傳統的關系型數據庫無法解決的問題——全屬性選擇器(如圖5所示)。

圖5 全屬性選擇器

這是一個非常典型的例子。為了說明問題,我們仍然以關系型數據庫的思路來描述。對于筆記本電腦這個類目,用戶某一次查詢所選擇的過濾條件可能包括 “筆記本尺寸”、“筆記本定位”、“硬盤容量”等一系列屬性(字段),并且在每個可能用在過濾條件的屬性上,屬性值的分布是極不均勻的。在圖5中我們可以看到,筆記本電腦的尺寸這一屬性有著10個枚舉值,而“藍牙功能”這個屬性值是個布爾值,數據的篩選性非常差。

在用戶所選擇的過濾條件不確定的情況下,解決全屬性問題的思路有兩個:一個是窮舉所有可能的過濾條件組合,在“云梯”上進行預先計算,存入數據庫供查詢;另一個是存儲原始數據,在用戶查詢時根據過濾條件篩選出相應的記錄進行現場計算。很明顯,由于過濾條件的排列組合幾乎是無法窮舉的,第一種方案在現實中是不可取的;而第二種方案中,原始數據存儲在什么地方?如果仍然用關系型數據庫,那么你打算怎樣為這個表建立索引?

這一系列問題把我們引到了“創建定制化的存儲、現場計算并提供查詢服務的引擎”的思路上來,這就是Prometheus(如圖6所示)。

圖6 Prom的存儲結構

從圖6可以看出,我們選擇了HBase作為Prom的底層存儲引擎。之所以選擇HBase,主要是因為它是建立在HDFS之上的,并且對于MapReduce有良好的編程接口。盡管Prom是一個通用的、解決共性問題的服務框架,但在這里,我們仍然以全屬性選擇為例,來說明Prom的工作原 理。這里的原始數據是前一天在淘寶上的交易明細,在HBase集群中,我們以屬性對(屬性與屬性值的組合)作為row-key進行存儲。而row-key 對應的值,我們設計了兩個column-family,即存放交易ID列表的index字段和原始交易明細的data字段。在存儲的時候,我們有意識地讓每個字段中的每一個元素都是定長的,這是為了支持通過偏移量快速地找到相應記錄,避免復雜的查找算法和磁盤的大量隨機讀取請求。

圖7 Prom查詢過程

圖7用一個典型的例子描述的Prom在提供查詢服務時的工作原理,限于篇幅,這里不做詳細描述。值得一提的是,Prom支持的計算并不僅限于求和SUM運算,統計意義上的常用計算都是支持的。在現場計算方面,我們對Hbase進行了擴展,Prom要求每個節點返回的數據是已經經過“本地計算”的局部最優解,最終的全局最優解只是各個節點返回的局部最優解的一個簡單匯總。很顯然,這樣的設計思路是要充分利用各個節點的并行計算能力,并且避免大量明細數據的網絡傳輸開銷。

用中間層隔離前后端

上文提到過,MyFOX和Prom為數據產品的不同需求提供了數據存儲和底層查詢的解決方案,但隨之而來的問題是,各種異構的存儲模塊給前端產品的使用帶來了很大的挑戰。并且,前端產品的一個請求所需要的數據往往不可能只從一個模塊獲取。

舉個例子,我們要在數據魔方中看昨天做熱銷的商品,首先從MyFOX中拿到一個熱銷排行榜的數據,但這里的“商品”只是一個ID,并沒有ID所對應的商品描述、圖片等數據。這個時候我們要從淘寶主站提供的接口中去獲取這些數據,然后一一對應到熱銷排行榜中,最終呈現給用戶。

圖8 glider的技術架構

有經驗的讀者一定可以想到,從本質上來講,這就是廣義上的異構“表”之間的JOIN操作。那么,誰來負責這個事情呢?很容易想到,在存儲層與前端產品之間增加一個中間層,它負責各個異構“表”之間的數據JOIN和UNION等計算,并且隔離前端產品和后端存儲,提供統一的數據查詢服務。這個中間層就是glider(如圖8所示)。

緩存是系統化的工程

除了起到隔離前后端以及異構“表”之間的數據整合的作用之外,glider的另外一個不容忽視的作用便是緩存管理。上文提到過,在特定的時間段內,我們認為數據產品中的數據是只讀的,這是利用緩存來提高性能的理論基礎。

在圖8中我們看到,glider中存在兩層緩存,分別是基于各個異構“表”(datasource)的二級緩存和整合之后基于獨立請求的一級緩存。除此之外,各個異構“表”內部可能還存在自己的緩存機制。細心的讀者一定注意到了圖3中MyFOX的緩存設計,我們沒有選擇對匯總計算后的最終結果進行緩 存,而是針對每個分片進行緩存,其目的在于提高緩存的命中率,并且降低數據的冗余度。

大量使用緩存的最大問題就是數據一致性問題。如何保證底層數據的變化在盡可能短的時間內體現給最終用戶呢?這一定是一個系統化的工程,尤其對于分層較多的系統來說。

圖9 緩存控制體系

圖9向我們展示了數據魔方在緩存控制方面的設計思路。用戶的請求中一定是帶了緩存控制的“命令”的,這包括URL中的query string,和 HTTP頭中的“If-None-Match”信息。并且,這個緩存控制“命令”一定會經過層層傳遞,最終傳遞到底層存儲的異構“表”模塊。各異構“表” 除了返回各自的數據之外,還會返回各自的數據緩存過期時間(ttl),而glider最終輸出的過期時間是各個異構“表”過期時間的最小值。這一過期時間 也一定是從底層存儲層層傳遞,最終通過HTTP頭返回給用戶瀏覽器的。

緩存系統不得不考慮的另一個問題是緩存穿透與失效時的雪崩效應。緩存穿透是指查詢一個一定不存在的數據,由于緩存是不命中時被動寫的,并且出于容錯考慮,如果從存儲層查不到數據則不寫入緩存,這將導致這個存在的數據每次請求都要到存儲層去查詢,失去了緩存的意義。

有很多種方法可以有效地解決緩存穿透問題,最常見的則是采用布隆過濾器,將所有可能存在的數據哈希到一個足夠大的bitmap中,一個一定不存在的數據會被這個bitmap攔截掉,從而避免了對底層存儲系統的查詢壓力。在數據魔方里,我們采用了一個更為簡單粗暴的方法,如果一個查詢返回的數據為空(不管是數據不存在,還是系統故障),我們仍然把這個空結果進行緩存,但它的過期時間會很短,最長不超過五分鐘。

緩存失效時的雪崩效應對底層系統的沖擊非常可怕。遺憾的是,這個問題目前并沒有很完美的解決方案。大多數系統設計者考慮用加鎖或者隊列的方式保證緩存的單線程(進程)寫,從而避免失效時大量的并發請求落到底層存儲系統上。在數據魔方中,我們設計的緩存過期機制理論上能夠將各個客戶端的數據失效時間均 勻地分布在時間軸上,一定程度上能夠避免緩存同時失效帶來的雪崩效應。

結束語

正是基于本文所描述的架構特點,數據魔方目前已經能夠提供壓縮前80TB的數據存儲空間,數據中間層glider支持每天4000萬的查詢請求,平均響應時間在28毫秒(6月1日數據),足以滿足未來一段時間內的業務增長需求。

盡管如此,整個系統中仍然存在很多不完善的地方。一個典型的例子莫過于各個分層之間使用短連接模式的HTTP協議進行通信。這樣的策略直接導致在流量高峰期單機的TCP連接數非常高。所以說,一個良好的架構固然能夠在很大程度上降低開發和維護的成本,但它自身一定是隨著數據量和流量的變化而不斷變化的。我相信,過不了幾年,淘寶數據產品的技術架構一定會是另外的樣子。

樂發網超市批發網提供超市貨源信息,超市采購進貨渠道。超市進貨網提供成都食品批發,日用百貨批發信息、微信淘寶網店超市采購信息和超市加盟信息.打造國內超市采購商與批發市場供應廠商搭建網上批發市場平臺,是全國批發市場行業中電子商務權威性網站。

本文內容整合網站:百度百科知乎淘寶平臺規則

本文來源: 淘寶數據魔方技術架構解析

分享與收藏:  網商學院搜索  告訴好友  關閉窗口  打印本文 本文關鍵字:

為您推薦更多相關文章

探秘淘寶女裝買家市場需求
 
更多..資源下載
淘寶數據分析圖文
淘寶數據分析網商學院推薦
淘寶數據分析點擊排行
 
手機版 手機掃描訪問
主站蜘蛛池模板: 中国胖女人一级毛片aaaaa | 国产玖玖在线观看 | 999久久久精品视频在线观看 | 狠狠色婷婷丁香综合久久韩国 | 成人黄色免费看 | 男女很舒服爽视频免费 | 欧美中文在线 | 亚洲精品一区二区三区 | 久久成人免费大片 | 欧美成人高清 | 性欧美美国级毛片 | 色熟 | 免费在线成人 | 久久成人视 | 18video9ex欧美生活片 | 中文字幕色站 | 欧美一区二区三区精品国产 | 久久精品国产一区二区三区不卡 | 亚洲精品国产第一区二区多人 | 欧美高清一区二区三 | 精品久久久久不卡无毒 | 91大神大战丝袜美女在线观看 | 97视频在线免费 | 自拍偷拍二区 | 美女黄色网页 | 国产日韩精品一区在线不卡 | 亚洲欧美手机在线观看 | 中文字幕一区视频一线 | 丝袜毛片 | 国产精品日韩欧美一区二区三区 | 久久久久毛片成人精品 | 亚洲一区二区三区福利在线 | 欧美成人性色生活片天天看 | 免费午夜扒丝袜www在线看 | 爱呦视频在线播放网址 | 成人国产在线24小时播放视频 | 国产成人精品三级 | 国产妇乱子伦视频免费 | 日韩欧美在线一级一中文字暮 | 欧美亚洲日本国产综合网 | 久久久久久一品道精品免费看 |