大數(shù)據(jù)平臺(tái)
- 發(fā)布時(shí)間:2018-08-28
- 來(lái)源:
- 大 中 小
- 打印
概述
隨著信息化發(fā)展步入DT時(shí)代,數(shù)據(jù)在組織中的價(jià)值體現(xiàn)愈發(fā)凸顯,“數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)”的理念在各行各業(yè)快速扎根、發(fā)展,組織對(duì)數(shù)據(jù)價(jià)值的挖掘能力的要求也隨之愈來(lái)愈高。一種能與傳統(tǒng)關(guān)系型數(shù)據(jù)管理軟件能有效互補(bǔ),彌補(bǔ)關(guān)系型數(shù)據(jù)管理軟件在多結(jié)構(gòu)類型支持、海量數(shù)據(jù)處理、復(fù)雜實(shí)時(shí)/非實(shí)時(shí)計(jì)算分析等方面缺陷的數(shù)據(jù)處理軟件平臺(tái)呼之欲出。
神州信息大數(shù)據(jù)平臺(tái)(Sm@rtBDP)是基于Hadoop生態(tài)體系構(gòu)建而成的可幫助組織快速建立高效、實(shí)時(shí)的“大數(shù)據(jù)”處理、分析能力的一體化數(shù)據(jù)開(kāi)發(fā)、管理平臺(tái),可為組織數(shù)據(jù)中心的大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)計(jì)算、大數(shù)據(jù)分析及大數(shù)據(jù)分析提供輕量級(jí)解決方案。通過(guò)平臺(tái)提供的綜合數(shù)據(jù)治理和整合能力打通數(shù)據(jù)壁壘,連接數(shù)據(jù)孤島,實(shí)現(xiàn)海量數(shù)據(jù)的整合、存儲(chǔ)、查詢、統(tǒng)計(jì)、分析等功能。
產(chǎn)品介紹
神州信息大數(shù)據(jù)平臺(tái)(Sm@rtBDP)整體包括三大部分:大數(shù)據(jù)運(yùn)行平臺(tái)、大數(shù)據(jù)監(jiān)控平臺(tái)和大數(shù)據(jù)開(kāi)發(fā)平臺(tái)。
大數(shù)據(jù)運(yùn)行平臺(tái)用來(lái)提供大數(shù)據(jù)的運(yùn)行環(huán)境包含分布式文件系統(tǒng)、資源管理、并行計(jì)算框架、內(nèi)存并行計(jì)算、流式計(jì)算、集群協(xié)調(diào)服務(wù)、并行計(jì)算SQL執(zhí)行器、并行計(jì)算腳本語(yǔ)言、消息中間件、列式數(shù)據(jù)庫(kù)、工作流、文件數(shù)據(jù)采集、關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)采集等大數(shù)據(jù)技術(shù)的運(yùn)行環(huán)境。其中集成了23種Hadoop生態(tài)系統(tǒng)常用的組件,可以支撐多種計(jì)算類型的應(yīng)用的混合負(fù)載,包括批處理應(yīng)用、交互式查詢、高頻讀寫(xiě)、全文檢索、數(shù)據(jù)挖掘和實(shí)時(shí)流計(jì)算等多種計(jì)算類型。各行各業(yè)可基于這些計(jì)算手段和方式進(jìn)行上層應(yīng)用的建設(shè)。在安全管理方面遵循國(guó)家標(biāo)準(zhǔn),采用目前國(guó)內(nèi)外先進(jìn)的信息安全技術(shù)和有效的安全策略和技術(shù)手段,從平臺(tái)外部安全以及平臺(tái)自身安全著手,建立安全管控中心,提升平臺(tái)的服務(wù)和數(shù)據(jù)安全性。
大數(shù)據(jù)監(jiān)控平臺(tái)是用來(lái)安裝大數(shù)據(jù)平臺(tái)運(yùn)行環(huán)境、管理監(jiān)控大數(shù)據(jù)平臺(tái)的集群環(huán)境。主要功能包括:監(jiān)控集群的主機(jī)狀態(tài)、集群的磁盤(pán)使用情況、集群的CPU使用情況、集群的內(nèi)存使用情況、集群的網(wǎng)絡(luò)使用情況;管理分布式文件系統(tǒng)、資源管理、并行計(jì)算框架、內(nèi)存并行計(jì)算、流式計(jì)算、集群協(xié)調(diào)服務(wù)、并行計(jì)算SQL執(zhí)行器、并行計(jì)算腳本語(yǔ)言、消息中間件、列式數(shù)據(jù)庫(kù)、工作流、文件數(shù)據(jù)采集、關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)采集等大數(shù)據(jù)技術(shù);通過(guò)web的方式為集群添加主機(jī)、刪除主機(jī),針對(duì)每個(gè)主機(jī)可以添加刪除各個(gè)大數(shù)據(jù)組件。
大數(shù)據(jù)開(kāi)發(fā)平臺(tái)是為開(kāi)發(fā)人員提供的平臺(tái),能夠提高開(kāi)發(fā)人員的開(kāi)發(fā)效率。它為開(kāi)發(fā)人員提供基于eclipse的開(kāi)發(fā)插件,開(kāi)發(fā)人員可以不用訪問(wèn)大數(shù)據(jù)運(yùn)行環(huán)境就可以進(jìn)行開(kāi)發(fā)測(cè)試及調(diào)試;基于WEB的訪問(wèn)分布式文件系統(tǒng),可以上傳文件、下載文件、刪除文件;提供了基于WEB的方式操作列式數(shù)據(jù)庫(kù),可以查看列式數(shù)據(jù)庫(kù)數(shù)據(jù)中存在的表以及每個(gè)表的表結(jié)構(gòu),而且還能查看每個(gè)表里的數(shù)據(jù);提供的數(shù)據(jù)采集的界面工具,提供對(duì)關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)采集,支持手動(dòng)執(zhí)行數(shù)據(jù)采集和定時(shí)數(shù)據(jù)采集。大數(shù)據(jù)開(kāi)發(fā)平臺(tái)還提供了對(duì)文本文件的數(shù)據(jù)采集支持對(duì)文本文件的增量數(shù)據(jù)采集和全量數(shù)據(jù)采集;提供并行計(jì)算框架、內(nèi)存計(jì)算、流式計(jì)算的開(kāi)發(fā)框架,開(kāi)發(fā)人員可以更方便、高效的開(kāi)發(fā)并行計(jì)算的程序。
適用場(chǎng)景
神州信息大數(shù)據(jù)平臺(tái)(Sm@rtBDP)可提供對(duì)以下應(yīng)用場(chǎng)景的良好支撐:
■ 大數(shù)據(jù)復(fù)雜分析:能夠充分利用集群的并行計(jì)算能力支撐海量數(shù)據(jù)復(fù)雜分析。
■ 大表查詢和分析:能夠?qū)v史數(shù)據(jù)進(jìn)行復(fù)雜查詢分析,例如億級(jí)數(shù)量以上數(shù)據(jù)復(fù)雜查詢或批量分析。平臺(tái)能夠利用集群的并行計(jì)算提高查詢速度,支持高并發(fā)、高吞吐查詢。
■ 海量歷史數(shù)據(jù)存儲(chǔ):能夠以極高的性價(jià)比支持海量歷史數(shù)據(jù)的存儲(chǔ)。利用平臺(tái)的廉價(jià)存儲(chǔ),可將數(shù)據(jù)存儲(chǔ)到布式文件系統(tǒng)(HDFS)中,提供查詢分析服務(wù)。相對(duì)于傳統(tǒng)共享儲(chǔ)存性價(jià)比更高,相對(duì)帶庫(kù)使用方便。
■ 龐大的網(wǎng)頁(yè)數(shù)據(jù)分析,如輿情分析、社會(huì)滿意度分析:能夠基于網(wǎng)頁(yè)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)整合及數(shù)據(jù)分析處理。大數(shù)據(jù)平臺(tái)提供分布式存儲(chǔ)、并行化計(jì)算框架、機(jī)器學(xué)習(xí)庫(kù)等支撐能力。
■ 非結(jié)構(gòu)數(shù)據(jù)存儲(chǔ):支持報(bào)表、圖片,互聯(lián)網(wǎng)采集的文本等非結(jié)構(gòu)化數(shù)據(jù)存放到分布式文件系統(tǒng)HDFS中。在大數(shù)據(jù)平臺(tái)分布式文件系統(tǒng)下存儲(chǔ)數(shù)據(jù)可靠并使用方便。
■ 實(shí)時(shí)信息處理:支持高并發(fā)(每秒5000筆以上)的實(shí)時(shí)信息處理。采集的數(shù)據(jù)不落地,基于內(nèi)存進(jìn)行實(shí)時(shí)計(jì)算及查詢。
價(jià)值
■ 多數(shù)據(jù)類型存儲(chǔ)管理技術(shù),可同時(shí)提供結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)管理及訪問(wèn)服務(wù)支持;
■ 可線性擴(kuò)展的分布式平臺(tái),可輕易支撐海量數(shù)據(jù)(PB級(jí))存儲(chǔ)及并行計(jì)算;
■ 海量數(shù)據(jù)中檢索數(shù)據(jù)的毫秒級(jí)響應(yīng)能力,可輕松破解常規(guī)關(guān)系數(shù)據(jù)庫(kù)中同樣場(chǎng)景存在的性能問(wèn)題;
■ 豐富的流式計(jì)算組件支持,提供如大屏展示、實(shí)時(shí)數(shù)據(jù)展現(xiàn)等業(yè)務(wù)場(chǎng)景的支撐能力;
■ 功能全、質(zhì)量高、價(jià)格優(yōu),可助客戶以較低的投入完成相同需求的支撐實(shí)現(xiàn)。
優(yōu)勢(shì)
■ 高性能。對(duì)于實(shí)時(shí)數(shù)據(jù)計(jì)算能力能夠達(dá)到秒級(jí);進(jìn)行的關(guān)系型的數(shù)據(jù)查詢測(cè)試,取得3~6倍的性能優(yōu)勢(shì);
■ 高可靠性。從硬件、文件系統(tǒng)和分布式計(jì)算框架所有層面采用高可靠設(shè)計(jì)架構(gòu),有效地防止基于開(kāi)源產(chǎn)品的不可靠問(wèn)題;支持集群中某臺(tái)機(jī)器宕機(jī)或者某臺(tái)機(jī)器出現(xiàn)故障時(shí),實(shí)時(shí)計(jì)算集群保障數(shù)據(jù)不會(huì)丟失、業(yè)務(wù)可以正常進(jìn)行;
■ 高穩(wěn)定性。支持業(yè)務(wù)的連續(xù)性,在企業(yè)IT環(huán)境下,提供可靠、安全穩(wěn)定的7x24 服務(wù);
■ 高兼容性。支持各種操作系統(tǒng)如REDHAT, CENTOS等主流Linux操作系;支持各類的硬件平臺(tái),如IBM的服務(wù)器、HP服務(wù)器、PCServer、X86虛擬機(jī)等;
■ 簡(jiǎn)單易用,靈活開(kāi)放。可視化界面,鼠標(biāo)拖拽添加功能模塊,易維護(hù);Hadoop架構(gòu)可以輕松擴(kuò)展到數(shù)千節(jié)點(diǎn),支持在運(yùn)行階段不宕機(jī)的情況下添加集群里的機(jī)器,在集群機(jī)器里添加組件;支持橫向擴(kuò)展部署,支持幾乎不受限制的系統(tǒng)橫向擴(kuò)展需要;全面兼容Apache Hadoop發(fā)行的版本,支持Hbase、Pig、Hive、MR、Oozie等各種開(kāi)源方案;
■ 高度集成,自主創(chuàng)新。提供統(tǒng)一的集群及服務(wù)管理,具有標(biāo)準(zhǔn)的服務(wù)框架和豐富的API,能夠方便接入新的組件并進(jìn)行管理,也能便捷地與其他系統(tǒng)集成;安全性以多個(gè)層次加入和集成到平臺(tái)中。提供用于身份驗(yàn)證、授權(quán)、可歸責(zé)性以及數(shù)據(jù)保護(hù)的關(guān)鍵功能,確保平臺(tái)及數(shù)據(jù)安全;高性能。