以發行商用Hadoop版本著稱的Cloudera,今年基於自家的企業級大數據應用平臺Cloudera Enterprise,正式推出了可隨需租用的自助式資料科學分析雲端服務,稱為Cloudera Data Science Workbench,這源自於該公司2016年併購的Sense.io。

使用這套以資料科學為名的應用服務時,分析人員在原生整合Cloudera維護的Spark和Hadoop等大數據系統的平臺之上,可以透過系統提供的網頁介面,運用R、Python、Scala等開放原始碼的程式語言,來搭配使用多種程式庫或是框架,例如,在深度學習領域相當知名的Tensorflow、MXnet、BigDL、Microsoft Cognitive Toolkit。如此一來,資料科學團隊即可更直接地發展各種資料分析專案,並且能夠發布所得到的結果、與其他團隊成員分享,進而推動更多共同合作的研究。

在工作臺的操作介面下,Cloudera整合了Python、R、Scala等程式語言,以及Spark 2,也能連接存取Cloudera發行的Hadoop版本(Cloudera Distribution Including Apache Hadoop,CDH)

圖中是Cloudera Data Science Workbench連接CDH叢集的基本架構,藍色區域都是CDH叢集環境的範圍。

若要運用R、Python、Scala來存取Spark 2,Cloudera Data Science Workbench主要是透過整合YARN的方式來提供,當中可執行動態配置,以便執行長期互動連線與批次作業。
在運作上,Cloudera Data Science Workbench是透過YARN的用戶端模式來連接,會在Cloudera Data Science Workbench的專案container當中,執行Spark驅動程式,並且會授權執行Spark executor,使其可完整存取CDH叢集資源。

 

原生支援Spark是Cloudera Data Science Workbench的一大特色,透過工作臺的介面,使用者可對Spark最新版2.1的環境,直接執行互動操作與批次存取,而不需經歷繁複的過程——提交Spark應用程式、等待結果,若出現錯誤,需再重新提交Spark應用程式。

同時,Cloudera Data Science Workbench也強調可提供企業級的安全性與政策遵循,因應Hadoop環境的認證、存取授權、連線加密、治理等管控需求,有助於IT人員進行管理。

這套系統能以原生方式支援Kerberos認證的Hadoop叢集,並運用企業現存的身分認證系統,像是AD/LDAP,或是SAML,同時,用戶也能在瀏覽器與分析服務之間的連線,強制使用TLS/SSL的安全加密協定,並且將Cloudera Data Science Workbench設定為TLS termination proxy,透過這個代理伺服器處理進入的連線,將連線請求予以解密,然後轉送至Cloudera Data Science Workbench系統當中。

以核心功能而言,資料科學家實際操作Cloudera Data Science Workbench時,可同時管理多個專案與工作——在每個專案下,包含可重新使用的節點、組態、產物(artifacts)、程式庫,而且這些專案都可以連接至GitHub的儲存庫,以便整合不同版本與多人協同合作。

Cloudera Data Science Workbench提供一個可供多人協同合作的集中式操作環境,資料科學家能在這裡安全地進行個別的研究分析專案,並且管理不同專案之間的相依性。

而在專案的工作區執行作業,是由Docker container來負責,為的是控制整個環境的組態,用戶可在這裡安裝新的套件,或是從Cloudera Data Science Workbench內建的終端機環境中,來執行命令列形式的指令碼。

至於另一項工作管理,是指透過輕量的工作與排程執行系統,來執行自動分析負載,當中支援即時監控、工作執行的歷史記錄,以及透過電子郵件寄送的警告。

產品資訊

Cloudera Data Science Workbench
●原廠:Cloudera ding@cloudera.com
●建議售價:廠商未提供
●作業系統需求:Red Hat Enterprise Linux/CentOS 7.2
●應用軟體需求:Cloudera Enterprise Data Hub 5.7以上、Cloudera Manager 5.11、Cloudera Apache Spark 2.l、JDK 7 - 8
●主節點硬體需求:16顆核心、32GB記憶體、500GB

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】


Advertisement

更多 iThome相關內容