Pivotal Greenplum Database——推動資料倉庫存儲和分析的未來發展
迎接資料世界帶來的挑戰
不斷上升的 IT 成本、爆炸式增長的資料量以及不斷演變的競爭挑戰,催生了關於有效分析系統的新思維方式。所有這些變化驅動著資料庫技術的巨變,而且這些發展共同帶來了實現有效資料採擷利用的一種新方法。已有幾十年歷史的舊式資料管理和分析體系結構,已然不能通過擴展規模來適應當今大幅增加的資料量。
Pivotal ™ Greenplum Database 是一個無共用的大規模並行處理 (MPP) 體系結構,專為業務智慧和分析處理而設計。在此體系結構中,每個伺服器節點都作為一個自包含資料庫管理系統,擁有並管理整體資料的不同部分。系統自動分佈資料,並跨所有可用硬體並行分佈查詢工作負載。
下圖總結了 Pivotal Greenplum Database 成為市場上最佳任務關鍵型分析平臺的原因。核心無共用 MPP體系結構通過無限的線性可擴展性支援大規模資料存儲、載入和處理。自我調整服務向全球企業提供高可用性、工作負載管理和線上容量擴展功能。重要產品功能支援 PB 級載入功能和混合存儲(行或列)以最好地滿足每種分析使用情形的獨特需求,並提供對 SQL、MapReduce 和可程式設計分析的嵌入式支持。此外,標準的用戶端介面還支援所有主要的協力廠商分析和管理工具。
Pivotal Greenplum Database 的核心原則是讓處理資源更為靠近資料和資料的使用者。這樣,計算資源實際上便能以完全並行的方式處理每一個查詢,同時使用所有的存儲連接,並按照查詢計畫的要求在資源之間高效地傳輸資料。結果,各種複雜的處理可以下推到最靠近資料的位置,以實現最高的效率和無與倫比的快捷性。
Pivotal Greenplum Database 已被公認為最具可擴展性的任務關鍵型分析資料庫,全球 200 多家領先企業都在使用該資料庫。
資料庫內分析
本機 MapReduce
Pivotal 在其並行引擎內本機運行 MapReduce 程式,並支援 PL/Java、經優化的 C 語言和 Java 函數。
用於 Hadoop 的高性能 gNet
Pivotal Greenplum Database 支援使用用於 Hadoop 的 gNet 從 Hadoop 群集對壓縮資料和未壓縮資料進行高性能並行導入和匯出,用於 Hadoop 的 gNet 是一種並行通信傳輸機制,可在 Pivotal Greenplum Database 節點與對應的 Hadoop 節點之間提供業界首屈一指的直接查詢互通性。為了進一步減少載入過程中的資源消耗, Hadoop 中的自訂格式資料(二進位、 Pig、Hive 等)可以通過 MapReduce 轉換成 GPDB 格式,然後導入到 Pivotal Greenplum Database 中。這是一種高速直接集成選項,可在 Pivotal Greenplum Database 與 Hadoop 之間提供高效靈活的資料交換。
高級分析函數
Pivotal Greenplum Database 提供了用於進行高級資料庫內分析的分析函數( t-statistics、p-values 和 Naïve Bayes)。這些函數提供了變數選擇所需的指標,從而提高了回歸模型的品質,並增強了理解和分析邊界情況的能力。
可程式設計分析
為數學家和統計學家提供了更高級別的並行分析功能,並且還提供對實數、線性代數和機器學習原語的支持。
Pivotal Greenplum Database 擴展框架和全包式資料庫內分析
Pivotal Greenplum Database 提供了用於資料庫內分析的可擴展敏捷平臺,並利用了系統的大規模並行體系結構。Pivotal Greenplum Database 通過 Pivotal Extensions 支援全包式資料庫內分析, Pivotal Extensions 可以從 EMC Subscribenet 下載,並使用新的 Pivotal Package Manager 進行安裝。這一新的 Pivotal Greenplum Database 應用工具可確保自動安裝和更新功能擴展,例如資料庫內 GeoSpatial 功能、 PL/R、PL/Java、PL/Python 和 PL/Perl。Pivotal Extensions 可大大簡化在整個群集中啟用和管理高級資料庫內功能的任務。例如,在 Pivotal 群集擴展的過程中,擴展會自動部署在新節點上。
資料庫管理工具
線上系統擴展
您可以添加伺服器以提高存儲容量、處理性能和載入性能。擴展過程在後臺進行的同時,資料庫可保持線上並完全可用。性能和容量將隨伺服器的增加而呈線性增長。
工作負載管理
通過對系統資源及其分配用於查詢的情況進行管理控制,可將使用者分配到資源佇列中,這些佇列管理著任務向資料庫的流入。利用工作負載管理,還可以對正在運行的查詢進行優先順序調整。
動態查詢優先順序調整
Pivotal 的高級工作負載管理功能通過一種正在申請專利的技術而得到擴展,該技術可將整個群集的資源跨所有正在運行的查詢進行連續、即時的平衡。這為 DBA提供了所需的控制能力,讓他們能在複雜的混合工作負載環境中滿足工作負載服務級別協定要求。
資料庫性能監視工具
Pivotal Greenplum Database 的性能監視資料收集代理可收集指標,以 明管理員分析 Pivotal Greenplum Database 的網路模式。通過收集這些指標,系統管理員可以查明網路問題的原因,並將硬體問題與軟體問題分離。
簡單快速的並行安裝
通過並行安裝應用工具,系統管理員可以一次性在多台主機上安裝 Pivotal Greenplum Database 軟體。以 root 用戶身份運行時,它還會自動執行其他系統組態任務,例如創建 Pivotal 系統使用者 (gpadmin)、設置系統使用者的密碼、設置 Pivotal Greenplum Database 安裝目錄的所有權以及在所有指定的主機位址名稱間交換 SSH 金鑰。
高可用性、備份和災難恢復支持
自我修復容錯
傳統的 MPP資料庫容錯技術只適用於不到 100 台伺服器的環境,超出此規模後,總體擁有成本將大幅提高。 Pivotal 的容錯功能提供了智慧故障檢測和快速線上差異恢復,從而降低總體擁有成本,並幫助實現具有最高級別可用性的雲規模系統。
恢復後的線上分段重新平衡
分段恢復後, Pivotal Greenplum Database 分段可以在系統處於線上狀態時重新平衡。所有用戶端會話均保持連接,而不會造成宕機。在系統恢復最佳狀態的過程中,資料庫仍可正常工作。
利用 Data Domain Boost 實現更簡單且可擴展的備份
現在,Pivotal Greenplum Database 通過 EMC Data Domain Boost 在 EMC Data Domain®重復資料消除存儲系統中隨附高級集成功能,以實現更快速、更高效的備份。此集成功能可將重復資料消除過程的一部分分配給 Pivotal Greenplum Database 伺服器,使這些伺服器能夠僅將唯一的資料發送給 Data Domain 系統。這大幅提高了聚合輸送量、減少了通過網路傳輸的資料量並消除了 NFS 裝載管理需求。