- 靈活的計算模式:SparkMR在底層提供統(tǒng)一的HDFS作為數據存儲引擎,在上層提供Spark與MapReduce兩種計算引擎,并提供YARN作為調度系統(tǒng)。用戶可以輕松實現(xiàn)三種不同的計算模式,即Spark Standalone、Spark on YARN和MapReduce on YARN三者之間的切換。
- 強大的計算能力: SparkMR為了方便用戶開發(fā)Spark應用,除了支持Java和Scala開發(fā)之外,還提供了Python與R兩種語言的運行環(huán)境。其中為Python用戶提供了Anaconda發(fā)行版的Python 2和Python 3,并支持在這兩種Python版本間進行切換。同時,分別為這兩個Python版本預置了多個Anaconda發(fā)行版的數據科學包,為數據科學和機器學習/深度學習等 AI 開發(fā)場景提供了強大的計算能力支撐。
- 便捷的集成能力:SparkMR支持指定依賴服務的功能,即通過AppCenter 2.0 框架內原生的應用感知機制,實現(xiàn)與其他大數據分析組件之間自動化的無縫集成。SparkMR與QingStor對象存儲平臺也進行了預置集成,用戶可以通過簡單的配置即可開啟對QingStor對象存儲的支持,以應對海量大規(guī)模數據的存儲問題。
- 良好的調度策略: SparkMR提供Spark與YARN的自定義調度器的功能,用戶可以根據自己實際的需求,自定義集群內資源調度策略,賦予用戶在多租戶使用場景下更為精細化的管理能力。
- 簡易的服務定制:SparkMR通過控制臺提供近60個配置參數,用戶通過控制臺的UI操作即可完成集群部署及服務的個性化定制。比如用戶可以通過 UI 即可完成設置 Hadoop 代理用戶的功能。SparkMR的Client(客戶端)節(jié)點也實現(xiàn)了完全的自動化配置,用戶無需再單獨創(chuàng)建并手動配置BigData Client或者Spark Client。這意味著用戶在控制臺完成配置及服務定制后,在部署完成時,已經可以開始執(zhí)行計算任務,真正實現(xiàn)了一鍵部署、即刻使用。
- 完善的服務監(jiān)控:SparkMR提供了完善的服務級別分角色的監(jiān)控能力,用戶不僅可以看到常規(guī)資源層監(jiān)控,還可以通過可視化的方式清晰了解整體服務的運行情況。同時基于服務監(jiān)控,還提供了監(jiān)控告警、健康檢查和服務自動恢復等功能。
青云QingCloud全新雙引擎大數據服務SparkMR正式上線
北京,2017年8月21日——
日前,青云QingCloud宣布SparkMR on QingCloud服務正式登陸AppCenter(應用https://appcenter.qingcloud.com/apps/app-6iuoe9qs)。SparkMR on QingCloud集成了Spark與Hadoop MapReduce雙計算引擎,提供統(tǒng)一的HDFS數據存儲引擎及YARN調度系統(tǒng),為用戶提供靈活、高效、可多模式切換的全新云端大數據處理平臺。
大數據時代,數據資源是企業(yè)的無形資產,也是核心競爭力之一。如何低成本、高效率地進行數據統(tǒng)一管理和分析,獲得商業(yè)決策支持成為擺在企業(yè)面前的一道難題。大數據平臺正是為了企業(yè)的這種需求應運而生并持續(xù)發(fā)展創(chuàng)新。青云QingCloud于2015年8月推出了基于Spark的大數據集群服務,同年12月,推出Hadoop集群服務作為大數據基礎平臺的有力補充,以此來滿足企業(yè)在大數據領域的不同需求。
但由于Spark與Hadoop作為兩個獨立的服務,用戶同時使用這兩種處理引擎時,需要部署兩套HDFS,相同的數據需要加載并存放兩份,無論是成本還是效率都不是最好的選擇。從數據統(tǒng)一管理角度出發(fā),青云QingCloud推出SparkMR on QingCloud,通過QingCloud AppCenter以云應用的方式交付用戶使用,對原有大數據平臺的Spark與Hadoop服務進行了全方位的整合與升級。
目前,SparkMR支持Apache Hadoop 2.7.3與Apache Spark 2.2.0。 Spark和Hadoop兩者結合后,成本顯著降低。同時,相對原大數據平臺提供更豐富、更靈活的可選配置,用戶可以分角色定制節(jié)點配置(CPU 2~16核可選,內存2~64GB可選)。SparkMR on QingCloud作為支撐全新雙引擎大數據平臺的重要組件,具有多重亮點: