12月20日-21日,由中國信通院、中國通信標準化協會主辦,中國通信標準化協會大數據技術標準推進委員會承辦的“2023數據資產管理大會”在京召開。在會上,第七屆大數據“星河(Galaxy)”案例評選結果正式公布。中移在線服務有限公司(中移在線)與酷克數據聯合申報的《基于云原生化的數據倉庫平臺,實現數據算力交付效率全面提升》項目,憑借全棧自主可控、敏捷高效、安全穩(wěn)定的先進特性,成為業(yè)內首個容器化部署的大規(guī)模云原生數據倉庫,榮膺2023大數據“星河”數據庫優(yōu)秀案例獎。
大數據“星河(Galaxy)”案例征集活動主要面向甲方落地單位,旨在通過實地生產案例與場景,總結和推廣真實可用的大數據實踐與經驗,在國內大數據產業(yè)具有公認的行業(yè)標桿性和極高的認可度。
第七屆大數據“星河(Galaxy)”案例征集包括數據庫與其他五項大數據應用方向,覆蓋電信、金融、政務、能源、制造等行業(yè)。案例征集自9月啟動以來,受到了業(yè)界領先甲方單位與廠商的廣泛關注。經過形式審查和專家評審,共評選出數據庫優(yōu)秀案例26個。
項目背景
中移在線營服數據處理平臺建設初期采用了當時業(yè)界廣泛運用的“Hadoop+MPP數據庫”混搭架構作為數據倉庫。隨著數據量的不斷增長,平臺擴容和運維漫長繁瑣,無法滿足高時效性、高重要性應用的發(fā)展需求。
圍繞集團公司賦予的“全網集中服務的提供者、渠道運營的集中支撐者、業(yè)務的后臺集中處理者”的定位,中移在線向云原生技術積極布局。經過廣泛的市場調研和產品比較,最終以酷克數據的存算分離、彈性并行處理(EPP)數據庫產品——HashData云數倉為核心,實施Vertica全面替換,構建統(tǒng)一高效、敏捷智能、湖倉一體的數據體系,提供統(tǒng)一、多樣化、面向應用、面向主題的數據服務能力,為中移在線數字化轉型提供強大的數據能力底座。
首先,在本項目中,中移在線采用HashData EPP數據倉庫,與原有基礎云平臺、對象存儲集成,采用容器化部署方式建立起云原生數據倉庫。
傳統(tǒng)MPP架構的數據倉庫,由于數據量大,網絡、IO吞吐量高,無法采用容器化部署,難以實現資源利用的效率最大化。中移在線和酷克數據的技術團隊克服了網絡、存儲、調度、管理等方面遇到的諸多技術挑戰(zhàn),突破過往容器化僅用于無狀態(tài)應用場景或開發(fā)測試環(huán)境的限制,采用k8S+HashData 的技術路線,在國內率先建成實際生產環(huán)境下的容器化部署大規(guī)模云原生數據倉庫。
圖1:基于容器化部署的云原生數據倉庫解決方案
基于HashData存儲、計算、元數據三者分離的架構,借助更輕量級的容器虛擬化技術,進一步擴展了云原生數據倉庫平臺的彈性伸縮優(yōu)勢,以及高可用能力、自動化運維能力和資源敏捷交付能力,大幅提升了項目交付速度,降低了數據遷移和拓展難度,實現計算資源和交付效率的全面提升。
相比原有數據處理平臺,基于容器化部署的HashData云數倉,具備高可用、高并發(fā)能力,計算資源可水平無限擴展、支持秒級擴縮容等能力,并且在擴縮容期間不影響業(yè)務連續(xù)性,滿足不同場景業(yè)務數據計算、查詢需要,實現了計算資源快速部署、高效交付的建設目標。
同時,在項目實施過程中,中移在線在HashData云原生數據倉庫平臺計算引擎層構建起多種異構數據技術組件的生態(tài)兼容能力,采用融合分析技術,支持把核心倉庫區(qū)的數據與大數據區(qū)的數據進行關聯融合分析,減少數據搬遷,提升加工效率和數據資源利用率,滿足公司業(yè)務部門日益復雜的分析場景需求。最終,通過云原生數據倉庫與流處理系統(tǒng)、批處理系統(tǒng)、數據湖、對象存儲的集成,實現了數據高效匯聚,以及不同存儲之間數據低成本流動與透明訪問,助力數據高效融通、賦能生產運營。
此外,本次項目充分發(fā)揮了HashData豐富的接口能力與各種開發(fā)語言和上下游生態(tài)軟件兼容性強的特性,順利實現了云原生數據倉庫與現有報表指標工具、智能統(tǒng)計工具、數據洞察工具、自助分析工具、研發(fā)云平臺等系統(tǒng)的兼容適配,面向用戶提供高效的數據檢索與分析能力,提升用戶數據使用效率和體驗,提升用戶數據使用率。
在存量數據應用遷移方面,借助HashData云原生數據倉庫引擎用戶自定義函數、用戶自定義數據類型的特性,保持數據庫引擎間的兼容性;此外,通過HashData完善的遷移工具功能,優(yōu)化遷移方案,最大程度地實現了存量數據應用的“一鍵式”自動遷移及驗證操作,大幅縮減了遷移人力投入和整體項目周期,快速釋放新平臺業(yè)務價值。
圖2:Vertica存量應用工具化遷移方案
項目亮點
在本項目中,中移在線采用了HashData作為構建云原生數據倉庫平臺的核心引擎。依托HashData強大的數據查詢分析能力和云計算彈性伸縮能力,新平臺在技術架構、資源交付、業(yè)務賦能等方面實現了全方位提升:
· 數據倉庫系統(tǒng)架構創(chuàng)新
HashData云數倉解決了傳統(tǒng)數據倉庫在存算耦合、彈性伸縮、元數據管理等方面的弊端,各模塊之間完全解耦,并采用分布式部署,擺脫了傳統(tǒng)MPP數據庫的各種架構限制和制約,為客戶提供成熟穩(wěn)定的海量數據管理平臺,最大限度釋放數據價值。
· 數據倉庫容器化部署創(chuàng)新
中移在線在國內率先在實際生產環(huán)境實現了云數倉容器化大規(guī)模部署和應用。通過采用K8S+HashData技術路線,新平臺具備秒級快速擴縮容、讀寫分離、高可用、自動化運維、資源敏捷交付等能力,快速滿足業(yè)務發(fā)展需要,同時也進一步提升了資源利用率,賦能企業(yè)降本增效。
· 靈活高效的資源隔離能力創(chuàng)新
基于存算分離的架構,項目實現了基礎設施資源和應用解耦,可以根據計算集群的工作負載變化,靈活、動態(tài)調配計算集群資源。計算集群間性能相互隔離,資源和操作完全獨立,不會產生相互競爭 CPU、內存和IO的情況,從容應對紛繁復雜的數據應用場景。
· 應用驅動的自動緩存能力創(chuàng)新
HashData緩存采用LRU算法,實現了按需、自動化的緩存管理,提升了熱點數據訪問效率,讓底層存儲更高效滿足上層應用需求。
· 智能化自愈能力創(chuàng)新
HashData提供了管理組件實時監(jiān)控整個集群的運行狀態(tài),當感知到節(jié)點故障時將自動執(zhí)行不同策略下的恢復操作,實現故障自愈,保證整個數倉服務實現高可用,有效適應數倉平臺從決策管理輔助系統(tǒng)到業(yè)務運營關鍵支撐平臺的轉變,并滿足用戶對平臺全天候可用性的預期。
項目價值
基于容器化部署的云原生數據倉庫的建成,有效支撐了中移在線打造開放式數據生態(tài)體系,推動將數據變?yōu)橘Y產并服務于業(yè)務,以數據驅動業(yè)務增長,實現數據可見、可用、可經營,驅動業(yè)務創(chuàng)新和數據管理提速增效:
· 深化云原生技術應用,實現數據基礎平臺架構云化升級
本次云數倉平臺建設,是中移在線實現整個數據基礎平臺架構云化升級的重要一環(huán)。利用HashData云架構的可自由伸縮、靈活調配等優(yōu)勢,大幅提升計算資源快速部署、高效交付能力,支撐架構創(chuàng)新、數據生態(tài)、相互融合的特色數據體系,賦能公司未來業(yè)務高質量發(fā)展。
· 構建OneData數據平臺,實現真正意義上的企業(yè)級統(tǒng)一數據視圖
在本次云數倉平臺的建設中,將過往分散在四套獨立Vertica集群中的數據統(tǒng)一遷移至全轄共享的對象存儲,以更低成本、更高擴展性和可靠性,實現了全部數據資產的統(tǒng)一數據平臺納管,建立起真正意義上的企業(yè)級統(tǒng)一數據視圖,消除了數據孤島,避免了數據二義性對業(yè)務分析的影響,大幅降低了數據的使用與維護成本。
· 解耦數據應用與數據庫集群資源,實現資源管理與運維管理新范式
基于HashData的松耦合架構,創(chuàng)新性實現了數據應用與數據庫集群資源的解耦,建立起統(tǒng)一的數據分析算力資源池,實現資源細粒度的管理與調度,支持離線計算與在線計算任務混部,達到峰谷互補的效果,大幅提升服務器資源利用率。
· 建立湖倉一體數據體系,實現不同組件間數據高效融通與共享協作
本次項目建立起了以HashData云數倉為核心的湖倉一體數據體系。通過外部表和連接器這兩類組件,實現了面向異構計算工作資源負載下的統(tǒng)一多維度查詢分析服務架構,支持在多種計算引擎間共用計算和存儲資源,避免了大批量數據的搬遷,有效降低了整體數據鏈路的成本、代價和復雜性,提升加工效率和數據資源利用率,滿足公司業(yè)務部門日益復雜的分析場景需求。
圖3:中移在線云原生化數據倉庫平臺湖倉一體系統(tǒng)集成解決方案示意圖
· 完善遷移工具功能,實現存量應用“一鍵式”快速高效平滑遷移
在存量數據應用遷移方面,通過HashData完善的遷移工具,最大程度實現了存量數據應用的“一鍵式”自動遷移及驗證操作,在較短時間內完成了約600T存量數據、10萬個表、2000多個ETL腳本遷移與轉換工作,節(jié)省了大量人力成本。
同時,在經濟效益方面,使用HashData云數倉比在原有Vertica平臺基礎上擴容升級節(jié)省超過千萬元;采用存算分離架構以及容器化部署技術方案,硬件資源節(jié)省達到30%。
本次項目中,中移在線不僅完成了對傳統(tǒng)技術棧的替代,更重要的是在數據倉庫平臺架構方面實現了技術創(chuàng)新。基于容器化的云原生數據倉庫平臺,采用全棧信創(chuàng)架構技術棧,支持一云多芯(x86/C86/ARM)、一庫雙棧(通用/信創(chuàng)),在實現公司數字資產管理和運營全棧自主可控的同時,也實現了數據線全面技術升級。
云原生數據倉庫平臺從硬件、操作系統(tǒng)、數據庫三個維度以信創(chuàng)供應鏈為基礎搭建技術架構,具備高可用、易拓展等特點,結合容器化技術,構建基礎算力與存儲資源可統(tǒng)一管理、動態(tài)調配、敏捷交付,且無對外服務故障“斷點”的大數據服務體系。
本次項目全棧自主可控,兼顧安全穩(wěn)定與敏捷高效,實現了數據算力交付效率全面提升,為中移在線全面提升業(yè)務處理的數智化水平奠定了堅實基礎,為業(yè)務效率與技術融合創(chuàng)新提供了有力支撐。
未來,中移在線和酷克數據將積極響應國家和行業(yè)號召,圍繞“數字經濟、信創(chuàng)工程、創(chuàng)新驅動”的發(fā)展戰(zhàn)略,積極推進技術架構轉型升級,賦能數據高效融通,為提升線上營服能力、營銷轉化能力構筑強大數據融通計算底座。
關于酷克數據
酷克數據是中國領先具備自主可控研發(fā)能力的數據倉庫軟件廠商,核心團隊主要由來自Pivotal、Teradata、IBM、Yahoo!、Oracle和華為等公司資深的云計算、分布式數據庫和大數據專家組成。憑借深厚的技術積累以及極具前瞻性的產品理念,HashData數據倉庫已廣泛應用于金融、電信運營商、能源、政府、交通物流和互聯網等多個行業(yè)領先客戶。
關于中移在線
中移在線服務有限公司是中國移動在數字化時代全新設立的全資專業(yè)子公司,致力于以更高的服務效能,更優(yōu)的服務質量,做數字服務的提供者和創(chuàng)新者,成為客戶滿意、社會信賴的卓越服務品質創(chuàng)造者。
相關稿件