大数据分析是指对规模巨大的
数据进行分析。大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。
工具介绍
前端展现
用于展现分析的前端
开源工具有JasperSoft,
Pentaho, Spagobi, Openi, Birt等等。
国内的有
BDP,国云数据(大数据魔镜),思迈特,FineBI等等。
数据仓库
有
Teradata AsterData, EMC GreenPlum, HP Vertica 等等。
有QlikView、 Tableau 、
Style Intelligence等等。
分析步骤
大数据分析的六个基本方面
1. Analytic Visualizations(
可视化分析)
不管是对数据分析专家还是普通用户,
数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
2. Data Mining Algorithms(
数据挖掘算法)
可视化是给人看的,
数据挖掘就是给机器看的。集群、分割、
孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。
3. Predictive Analytic Capabilities(
预测性分析能力)
数据挖掘可以让
分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
4. Semantic Engines(语义引擎)
我们知道由于
非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。
5. Data Quality and Master Data Management(
数据质量和数据管理)
数据质量和数据管理是一些管理方面的
最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的
分析结果。
假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。
数据仓库是为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的
关系型数据库。在商业
智能系统的设计中,数据仓库的构建是关键,是商业智能系统的基础,承担对
业务系统数据整合的任务,为商业智能系统提供
数据抽取、转换和加载(
ETL),并按主题对数据进行查询和访问,为联机数据分析和数据挖掘提供数据平台。
发展状况
开源大数据
1.
Hadoop HDFS、Hadoop
MapReduce,
HBase、Hive、Spark、Flink 渐次诞生,早期Hadoop
生态圈逐步形成。
2. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。
一体机数据仓库
IBM PureData(Netezza), OracleExadata, SAP Hana等等。
应用实例
巴西世界杯关系
与往届
世界杯不同的是:数据分析成为巴西世界杯赛事外的精彩看点。伴随赛场上球员的奋力角逐,大数据也在全力演绎世界杯背后的分析故事。一向以严谨著称的
德国队引入专门处理大数据的足球解决方案,进行比赛数据分析,优化球队配置,并通过分析对手数据找到比赛的“制敌”方式;
谷歌、
微软预言帝大数据分析邂逅世界杯,是
大数据时代的必然发生,而大数据分析也将在未来改变我们生活的方方面面。
业务成果
1.
积极主动&预测需求: 企业机构面临着越来越大的竞争压力,它们不仅需要获取客户,还要了解客户的需求,以便提升
客户体验,并发展长久的关系。客户通过分享数据,降低数据使用的隐私级别,期望企业能够了解他们,形成相应的互动,并在所有的接触点提供无缝体验。
为此,企业需要识别客户的多个
标识符(例如手机、
电子邮件和地址),并将其整合为一个单独的客户ID。由于客户越来越多地使用多个渠道与企业互动,为此需要整合传统数据源和数字数据源来理解客户的行为。此外,企业也需要提供情境相关的实时体验,这也是客户的期望。
2. 缓冲风险&减少欺诈: 安全和欺诈分析旨在保护所有物理、财务和
知识资产免受内部和
外部威胁的滥用。高效的数据和
分析能力将确保最佳的欺诈预防水平,提升整个企业机构的安全:威慑需要建立有效的机制,以便企业快速检测并预测欺诈活动,同时识别和跟踪肇事者。
将统计、网络、路径和大数据方法论用于带来警报的预测性欺诈倾向模型,将确保在被实时威胁检测流程触发后能够及时做出响应,并自动发出警报和做出相应的处理。数据管理以及高效和透明的欺诈事件报告机制将有助于改进欺诈风险
管理流程。
此外,对整个企业的数据进行集成和关联可以提供统一的跨不同
业务线、产品和交易的欺诈视图。多类型分析和数据基础可以提供更准确的欺诈趋势
分析和预测,并预测未来的潜在操作方式,确定欺诈审计和调查中的漏洞。
3.提供
相关产品: 产品是任何企业机构生存的基石,也通常是企业投入最大的领域。
产品管理团队的作用是辨识推动创新、新功能和
服务战略路线图的
发展趋势。
通过对个人公布的想法和观点的第三方数据源进行有效整理,再进行相应分析,可以帮助企业在需求发生变化或开发新技术的时候保持竞争力,并能够加快对
市场需求的预测,在
需求产生之前提供相应产品。
4. 个性化&服务: 公司在处理
结构化数据方面仍然有些吃力,并需要快速应对通过
数字技术进行客户交互所带来的不稳定性。要做出实时回应,并让客户感觉受到重视,只能通过先进的分析技术实现。大数据带来了基于客户个性进行互动的机会。这是通过理解客户的态度,并考虑实时位置等因素,从而在多渠道的
服务环境中带来个性化关注实现的。
5. 优化&改善客户体验
运营管理不善可能会导致无数重大的问题,这包括面临损害客户体验,最终降低
品牌忠诚度的
重大风险。通过在流程设计和控制,以及在商品或服务生产中的业务运营优化中应用分析技术,可以提升满足
客户期望的
有效性和效率,并实现运营。
通过部署先进的分析技术,可以提高现场运营活动的生产力和效率,并能够根据业务和
客户需求优化组织人力安排。数据和分析的最佳化使用可以带来
端对端的视图,并能够对关键运营指标进行衡量,从而确保持续不断的改进。
例如,对于许多企业来说,库存是当前资产类别中最大的一个项目——库存过多或不足都会直接影响公司的
直接成本和
盈利能力。通过数据和分析,能够以最低的成本确保不间断的生产、销售和/或客户
服务水平,从而改善
库存管理水平。数据和分析能够提供目前和计划中的
库存情况的信息,以及有关库存高度、组成和位置的信息,并能够帮助确定存库战略,并做出相应决策。客户期待获得相关的无缝体验,并让企业得知他们的活动。
异步分析
异步处理的大数据分析中遵守了捕获、存储加分析的流程,过程
中数据由
传感器、网页服务器、
销售终端、
移动设备等获取,之后再存储到相应设备上,之后再进行分析。由于这些类型的分析都是通过传统的
关系型数据库管理系统(
RDBMS)进行的,数据形式都需要转换或者转型成为RDBMS能够使用的
结构类型,例如行或者列的形式,并且需要和其它的数据相连续。
处理的过程被称之为提取、转移、加载或者称为
ETL。首先将数据从源系统中提取处理,再将
数据标准化处理且将数据发往相应的数据仓储等待进一步分析。在传统
数据库环境中,这种ETL步骤相对直接,因为分析的对象往往是为人们熟知的金融报告、销售或者市场报表、
企业资源规划等等。然而在大
数据环境下,ETL可能会变得相对复杂,因此转型过程对于不同类型的
数据源之间处理方式是不同的。
当分析开始的时候,数据首先从数据仓储
中会被抽出来,被放进RDBMS里以产生需要的报告或者支撑相应的商业
智能应用。在大数据分析的环节中,裸数据以及经转换了的数据
大都会被保存下来,因为可能在后面还需要再次转换。