傳統(tǒng)的數(shù)據(jù)存儲和管理以結(jié)構(gòu)化數(shù)據(jù)為主,因此關(guān)系數(shù)據(jù)庫系統(tǒng)(RDBMS)可以一統(tǒng)天下滿足各類應(yīng)用需求。但是試驗和考核實際所涉及的數(shù)據(jù)可能包含文本、日志、圖片、視頻、矢量地圖等來自不同數(shù)據(jù)采集源的、不同種類的數(shù)據(jù)。這些數(shù)據(jù)的格式通常都不是固定的,如果采用結(jié)構(gòu)化的存儲模式將很難應(yīng)對實際的需求。因此需要按照數(shù)據(jù)類型的不同,對數(shù)據(jù)的存儲和管理采用不同的技術(shù)路線。
采用新型數(shù)據(jù)庫集群,通過列存儲和行列混合存儲以及粗粒度索引等技術(shù),結(jié)合MPP(MassiveParallelProcessing)架構(gòu)高效的分布式計算模式,實現(xiàn)對大數(shù)據(jù)的存儲和管理,具有高性能和高擴展性特點;針對本項目中半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),采用基于Hadoop開源體系的底層,通過對Hadoop生態(tài)體系的技術(shù)擴展和封裝,實現(xiàn)對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲和管理。一方面用MPP來管理計算高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),提供強大的SQL和OLTP型服務(wù);另一方面,用Hadoop實現(xiàn)對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理,以支持內(nèi)容檢索、深度挖掘與綜合分析等新型應(yīng)用。
大數(shù)據(jù)應(yīng)用系統(tǒng)集成
大數(shù)據(jù)查詢統(tǒng)計分析示意圖