Vertica是一款基于列存储的MPP (massively parallel processing)架构的数据库。它可以支持存放多至
PB(Petabyte)级别的
结构化数据。Vertica是由关系数据库大师Michael Stonebraker(2014 年
图灵奖获得者)所创建,于2011年被
惠普收购并成为其核心大数据
平台软件。
简介
Vertica是一款基于列存储的MPP(massively parallel processing)架构的数据库。它可以支持存放多至PB(Petabyte)级别的
结构化数据。Vertica是由关系数据库大师Michael Stonebraker(2014 年
图灵奖获得者)所创建,于2011年被惠普收购并成为其核心大数据平台软件。
Vertica 采用无共享的MPP 架构,基于工业标准的x86 服务器,拥有高可扩展性。Vertica 集群中的所有节点100%对等,集群中没有
主节点或其他
共享资源。通过增加节点,就可以线性地扩展集群的
计算能力和数据处理容量。
Vertica 是真正的纯列式数据库,优化器和执行引擎可以忽略表中与查询无关的列。Vertica 不仅仅按列式
存储数据,还主动地根据
列数据的特点和查询的要求选用最佳的算法对数据进行排序和编码压缩,这就极大地降低磁盘I/O 消耗。同时,Vertica 的执行引擎和优化器也是基于列式
数据库设计的,编码压缩过的列数据在Vertica 的执行引擎中进行过滤、关联、分组等操作时不需要解反编码,从而大大降低了
CPU 和内存消耗。
Vertica 充分利用列式存储的优点,在保持对前端应用透明的前提下,把数据在集群中的所有节点进行
均匀分布的同时,还在多个节点上对同一份
数据维护了多个拷贝,确保任意一个或几个节点出现故障或进入维修状态都不会影响集群的
健康状态。这使得Vertica 拥有类似磁盘
RAID 一样
高可靠性。
无共享的MPP 架构和真正的
列式数据库特性,使Vertica 拥有高性能、高扩展性、高
压缩率、高
健壮性的特点。与传统的解决方案相比,Vertica 可以以30%的成本,实现50 倍-1000 倍的性能提高。
软件优势
作为全新架构的实时分析平台,Vertica 有很多的创新,特点包括:
列式存储和计算
通过列式计算和强大的主动
数据压缩,大幅降低成本高昂的磁盘
I/O(主要是传统的以行为存储单位的
SQL 数据库使用),执行查询的速度可提升 50 到 1000倍,
存储成本最高削减 90%。
基于无共享的MPP 架构,支持在线添加数量不限的X86 工业标准服务器,可根据需求任意扩展解决方案。
实时分析
通过内存与磁盘混合存储架构,以及原生支持kafka 消息系统的连接,支持数据实时装载和秒级分析。
开箱即用的数据库内时序
插值和关联、事件窗口和会话处理、
模式匹配、空间地理分析、
文本情感分析等高级分析,以及广义
线性回归、逻辑回归、K-Means
聚类、
朴素贝叶斯分类等常用
机器学习和
预测分析功能。您也可以获取
开源分析库,包括源自 CRAN(综合 R 存档网络)的众多分析功能包。
Vertica 支持关系数据库
事务处理和ACID 规范,支持SQL-92/SQL-99/SQL-2003 标准,提供
ODBC、JDBC、
ADO.NET 接口规范驱动,完全兼容传统关系数据库的开发、使用和管理习惯,可以轻松与现有的
ETL 和
报表工具集成,保护客户已有的投资。
可扩展的数据库内部分析框架
采用面向用户定义的过程式分析的强大开发框架,实现了对于数据库内部处理的
开放式访问。除了使用内置的 SQL 分析和
聚合函数外,还可借助 C++/Java/
R语言软件开发人员套件 (
SDK) 定义自己的定制函数。SDK 功能可保证沙盒安全,并使函数能够并行运行以加快
运行速度。
Vertica 可以作为SQL 分析引擎直接部署到Hadoop 集群中,直接存取HDFS上的数据;也可以通过标准SQL
直接访问Hive 等管理的数据,并与Vertica 管理的数据进行
关联分析;另外Vertica 还提供应用
编程接口 (
API)支持与
MapReduce、Pig 等框架构建结构化、半结构化和非结构化深度融合的
大数据分析应用。
不间断运行,并具有数据复制、
故障转移和恢复功能;Vertica 进行了
性能优化,并且对业务和运营团队完全透明。
通过强大的 API 集合来监控系统的资源、
后台进程、工作负载及性能,通过工作负载分析和
数据库设计器自动优化数据库,简化
系统管理。
发展历程
2005年,发表《C-Store: A Column-oriented DBMS》论文,Vertica系统公司成立。
2010年,Vertica在Sybase发起的
专利侵权诉讼中胜出,法院驳回了所有侵权请求。
2011年3月,
惠普公司收购Vertica系统公司。
版本更新
2006-2012年,发布了1.0-6.x,奠定了MPP列式
数据库引擎地位。
2013年,发布7.0,重点增加了Flex Tables支持
半结构化数据的快速探索、Live Aggregate Projections支持数据实时聚合。
2014年,发布7.1,重点增加地理
空间信息分析扩展、SQL on Hadoop的新部署模式。
2015年,发布7.2,重点增加了高性能ORC/Parquet开放格式读取功能、Kafka流式数据为批量加载功能。
2016年,发布8.0,重点增加了Spark
连接器支持高性能的双向
数据同步、库内高性能
并行计算的机器学习和预测分析功能、以及AWS、
Azure云平台按需部署模式。