產品資訊

首頁產品資訊大數據平台 〉 Pivotal Greenplum Database

鑑識取證
大數據平台
NETWORKING
資訊安全
全文檢索
存儲系統
即時通訊
資料保護

Pivotal Greenplum Database

原廠名稱

Pivotal 

產品簡介

Pivotal Greenplum Database——推動資料倉庫存儲和分析的未來發展

迎接資料世界帶來的挑戰

不斷上升的 IT 成本、爆炸式增長的資料量以及不斷演變的競爭挑戰,催生了關於有效分析系統的新思維方式。所有這些變化驅動著資料庫技術的巨變,而且這些發展共同帶來了實現有效資料採擷利用的一種新方法。已有幾十年歷史的舊式資料管理和分析體系結構,已然不能通過擴展規模來適應當今大幅增加的資料量。

Pivotal ™ Greenplum Database 是一個無共用的大規模並行處理 (MPP) 體系結構,專為業務智慧和分析處理而設計。在此體系結構中,每個伺服器節點都作為一個自包含資料庫管理系統,擁有並管理整體資料的不同部分。系統自動分佈資料,並跨所有可用硬體並行分佈查詢工作負載。

下圖總結了 Pivotal Greenplum Database 成為市場上最佳任務關鍵型分析平臺的原因。核心無共用 MPP體系結構通過無限的線性可擴展性支援大規模資料存儲、載入和處理。自我調整服務向全球企業提供高可用性、工作負載管理和線上容量擴展功能。重要產品功能支援 PB 級載入功能和混合存儲(行或列)以最好地滿足每種分析使用情形的獨特需求,並提供對 SQL、MapReduce 和可程式設計分析的嵌入式支持。此外,標準的用戶端介面還支援所有主要的協力廠商分析和管理工具。

Pivotal Greenplum Database 的核心原則是讓處理資源更為靠近資料和資料的使用者。這樣,計算資源實際上便能以完全並行的方式處理每一個查詢,同時使用所有的存儲連接,並按照查詢計畫的要求在資源之間高效地傳輸資料。結果,各種複雜的處理可以下推到最靠近資料的位置,以實現最高的效率和無與倫比的快捷性。

Pivotal Greenplum Database 已被公認為最具可擴展性的任務關鍵型分析資料庫,全球 200 多家領先企業都在使用該資料庫。

資料庫內分析

本機 MapReduce

Pivotal 在其並行引擎內本機運行 MapReduce 程式,並支援 PL/Java、經優化的 C 語言和 Java 函數。

用於 Hadoop 的高性能 gNet

Pivotal Greenplum Database 支援使用用於 Hadoop 的 gNet 從 Hadoop 群集對壓縮資料和未壓縮資料進行高性能並行導入和匯出,用於 Hadoop 的 gNet 是一種並行通信傳輸機制,可在 Pivotal Greenplum Database 節點與對應的 Hadoop 節點之間提供業界首屈一指的直接查詢互通性。為了進一步減少載入過程中的資源消耗, Hadoop 中的自訂格式資料(二進位、 Pig、Hive 等)可以通過 MapReduce 轉換成 GPDB 格式,然後導入到 Pivotal Greenplum Database 中。這是一種高速直接集成選項,可在 Pivotal Greenplum Database 與 Hadoop 之間提供高效靈活的資料交換。

高級分析函數

Pivotal Greenplum Database 提供了用於進行高級資料庫內分析的分析函數( t-statistics、p-values 和 Naïve Bayes)。這些函數提供了變數選擇所需的指標,從而提高了回歸模型的品質,並增強了理解和分析邊界情況的能力。

可程式設計分析

為數學家和統計學家提供了更高級別的並行分析功能,並且還提供對實數、線性代數和機器學習原語的支持。

Pivotal Greenplum Database 擴展框架和全包式資料庫內分析

Pivotal Greenplum Database 提供了用於資料庫內分析的可擴展敏捷平臺,並利用了系統的大規模並行體系結構。Pivotal Greenplum Database 通過 Pivotal Extensions 支援全包式資料庫內分析, Pivotal Extensions 可以從 EMC Subscribenet 下載,並使用新的 Pivotal Package Manager 進行安裝。這一新的 Pivotal Greenplum Database 應用工具可確保自動安裝和更新功能擴展,例如資料庫內 GeoSpatial 功能、 PL/R、PL/Java、PL/Python 和 PL/Perl。Pivotal Extensions 可大大簡化在整個群集中啟用和管理高級資料庫內功能的任務。例如,在 Pivotal 群集擴展的過程中,擴展會自動部署在新節點上。

資料庫管理工具

線上系統擴展

您可以添加伺服器以提高存儲容量、處理性能和載入性能。擴展過程在後臺進行的同時,資料庫可保持線上並完全可用。性能和容量將隨伺服器的增加而呈線性增長。

工作負載管理

通過對系統資源及其分配用於查詢的情況進行管理控制,可將使用者分配到資源佇列中,這些佇列管理著任務向資料庫的流入。利用工作負載管理,還可以對正在運行的查詢進行優先順序調整。

動態查詢優先順序調整

Pivotal 的高級工作負載管理功能通過一種正在申請專利的技術而得到擴展,該技術可將整個群集的資源跨所有正在運行的查詢進行連續、即時的平衡。這為 DBA提供了所需的控制能力,讓他們能在複雜的混合工作負載環境中滿足工作負載服務級別協定要求。

資料庫性能監視工具

Pivotal Greenplum Database 的性能監視資料收集代理可收集指標,以 明管理員分析 Pivotal Greenplum Database 的網路模式。通過收集這些指標,系統管理員可以查明網路問題的原因,並將硬體問題與軟體問題分離。

簡單快速的並行安裝

通過並行安裝應用工具,系統管理員可以一次性在多台主機上安裝 Pivotal Greenplum Database 軟體。以 root 用戶身份運行時,它還會自動執行其他系統組態任務,例如創建 Pivotal 系統使用者 (gpadmin)、設置系統使用者的密碼、設置 Pivotal Greenplum Database 安裝目錄的所有權以及在所有指定的主機位址名稱間交換 SSH 金鑰。

高可用性、備份和災難恢復支持

自我修復容錯

傳統的 MPP資料庫容錯技術只適用於不到 100 台伺服器的環境,超出此規模後,總體擁有成本將大幅提高。 Pivotal 的容錯功能提供了智慧故障檢測和快速線上差異恢復,從而降低總體擁有成本,並幫助實現具有最高級別可用性的雲規模系統。

恢復後的線上分段重新平衡

分段恢復後, Pivotal Greenplum Database 分段可以在系統處於線上狀態時重新平衡。所有用戶端會話均保持連接,而不會造成宕機。在系統恢復最佳狀態的過程中,資料庫仍可正常工作。

利用 Data Domain Boost 實現更簡單且可擴展的備份

現在,Pivotal Greenplum Database 通過 EMC Data Domain Boost 在 EMC Data Domain®重復資料消除存儲系統中隨附高級集成功能,以實現更快速、更高效的備份。此集成功能可將重復資料消除過程的一部分分配給 Pivotal Greenplum Database 伺服器,使這些伺服器能夠僅將唯一的資料發送給 Data Domain 系統。這大幅提高了聚合輸送量、減少了通過網路傳輸的資料量並消除了 NFS 裝載管理需求。 

產品優勢

無共用、大規模並行處理 (MPP) 系統結構在商品化基礎架構上性能卓越

• 支持在 Hadoop 與 Pivotal Greenplum Database 之間進行靈活的高性能資料交換,從而實現大資料分析
• 多型態存儲(行和列的混合)設計,能夠滿足每種商業智慧和分析使用情形的獨特需求
• 通過無限的線性可擴展性支援大規模資料存儲、載入和處理
• 提供自動並行處理,無需手動分區或調整


PIVOTAL GREENPLUM DATABASE功能特性

資料庫體系結構

核心大規模並行處理體系結構

Pivotal Greenplum Database 體系結構提供了對資料和查詢的自動並行處理功能 —所有資料自動跨系統的所有節點分區,而且查詢使用所有節點進行計畫和執行,這些節點以高度協調的方式配合運行。

PB 級載入功能

高性能載入功能利用了 MPP Scatter/Gather Streaming 技術。每添加一個節點,載入速度都會隨之提高,可達到每機架每小時 10 TB 以上。當載入一個連續的資料流程時,微批量處理和可重複使用的表物件支援以較短的間隔(例如每五分鐘一次)頻繁載入資料,同時保持極高的資料接收速率。

Polymorphic Data Storage 和執行

使用 Pivotal 的 Polymorphic Data Storage ™ 技術,DBA可以選擇與表的訪問方式相適應的存儲、執行和壓縮設置。借助此功能,客戶可以為任何表或分區選擇按行或按列進行存儲和處理。此外, Pivotal Greenplum Database 還支援將資料放置在特定存儲類型上,例如 SSD 介質或網路連接存儲 (NAS) 歸檔存儲。

任意位置資料訪問

任意位置資料訪問允許從資料庫中對外部資料來源執行查詢,無論資料的位置、格式或存儲介質是什麼,都可以並行返回資料。

資料庫內壓縮

資料庫內壓縮利用業界領先的壓縮技術來提高性能並大幅縮小存儲資料所需的空間。客戶預計可以將佔用的磁碟空間縮小到原來的 1/10 到 1/3,並相應地提高 I/O 性能。

多級分區

對表的靈活分區基於日期、範圍或值。分區是使用 DDL指定的,並且支援任意多個級別。查詢最佳化工具將自動從查詢計畫中修剪掉不必要的分區。

動態分區清除和查詢記憶體優化

Pivotal Greenplum Database 支援動態分區清除和查詢記憶體優化。動態分區清除功能會忽略表中不相關的分區,因此能顯著減少掃描的資料量,並加快查詢執行速度。查詢記憶體優化功能在查詢處理過程中智慧地釋放記憶體並將記憶體重新分配給其他操作員,從而優化記憶體利用率、提高輸送量和併發性。 

其他說明

互通性
索引 — B 樹、點陣圖等

Pivotal Greenplum Database 支援一系列索引類型,包括 B 樹和點陣圖。

全面的 SQL
Pivotal Greenplum Database 通過 SQL 2003 OLAP擴展提供全面的 SQL-92 和 SQL-99 支援,以及完整的支援,包括視窗函數、匯總、多維資料集以及多種其他快捷功能。所有查詢都並行化,並跨整個系統執行。

Pivotal Greenplum Database 提供增強的 SQL支援,包括本機支援 20 多個 Oracle 函數、關聯子查詢、非遞迴 WITH 子句和固定格式載入程式。這些增強功能可簡化對協力廠商工具的支持,這些工具會生成此類查詢並加快和簡化向 Pivotal Greenplum Database 的遷移。

用戶端訪問和協力廠商工具
Pivotal 支援標準資料庫介面( PostgreSQL、SQL、 ODBC、JDBC、OLEDB 等),並且獲得了廣泛的業務智慧 (BI) 和提取 /轉換 /載入 (ETL) 工具的完全支持和認證。

用於 GPDB 的 pgAdmin3
pgAdmin3 是針對 PostgreSQL的一款最受歡迎而且功能豐富的開放原始程式碼管理和開發平臺。 Pivotal Greenplum Database 附帶增強版的 pgAdmin3,此版本已經過擴展,可與 Pivotal Greenplum Database 配合工作,並且提供完全支援特定於 Pivotal 的功能。

XML支持
Pivotal Greenplum Database 支援 XML,從而能高性能地將 XML文檔並行載入到資料庫中,還支援 XML資料類型和 XML路徑語言 (xpath)。