数据整理分析一般分为两个步骤,
数据整理和
数据分析。数据整理是数据分析过程中最重要的环节。数据整理对调查、观察、实验等研究活动中所搜集到的资料进行检验、归类编码和数字编码的过程。数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
简介
数据整理分析一般分为两个步骤,
数据整理和
数据分析。数据整理是数据分析的基础,好的数据整理可能会为数据分析结果带来不少好处。数据分析是数据整理的目的,数据整理之后,只有用到,才能体现数据整理的意义。数据整理分析最主要目的是从数据中得到有价值的信息。
数据整理
数据整理是数据分析过程中最重要的环节,在大数据分析过程中也是如此。在小数据时代,数据整理包括数据的清洗、数据转换、归类编码和数字编码等过程,其中数据清洗占据最重要的位置,就是检查
数据一致性,处理无效值和缺失值等操作。在大数据时代,这些工作被弱化了,在有些大数据的算法和应用中,基本不再进行数据清洗了,因为大数据的多样化使得其数据,有一定的不精确性,但数据转换和编码过程还是需要的。
数据整理技术
从商业角度来看,从前未知的统计分析模式或趋势的发现为企业提供了非常有价值的洞察力。数据整理技术能够为企业对未来的发展具有一定的预见性。而OLTP仅仅能够实现对过去的数据进行分析。数据整理技术可以分成3类:群集、分类和预测。
群集技术就是在无序的方式下集中信息。群集的一个例子就是对未知特点的群体商业客户的分析,对这一例子输入相关信息就可以很好的定义客户的特点。
分类技术就是集中和指定object以预先确定事先定义好值的集合。集合通常用上面的技术来形成,可以举一个例子就是把客户按照他们的收入水平分成特定的销售群体。
预测技术就是对某些特定的对象和目录输入已知值,并且把这些值应用到另一个类似集合中以确定期望值或结果。比如,一组戴头盔和肩章的人是足球队的,那么我们也认为另一组带头盔和肩章的人也是足球队的。下面的这几条是现在常用的数据整理技术,每种技术都存在集中变异,而且可以应用到上面几种技术中。
回退模型――这一技术把标准统计技术应用到数据中来证明或推翻事先的假设。一个例子就是线性回退,这种情况下变量是根据一定时间内标准或变化路径来衡量。另一个例子是逻辑回退,这种情况下是根据以前相似事件发生的已知值来确定事件发生的可能性。
可视化――这一技术是建立多维图形,让数据分析人员确定数据的变化趋势、模式以及相互关系。
相关性――这一技术用来确定数据集合内两个或多个变量间的相互关系。
变化分析――这一统计技术是用来确定目标或已知变量与非独立变量或可变数据集合间平均值的差异。
差异分析――这一分类技术用于确定或“区别”集合中的关系要素。
预测――预测技术是根据过去事件的已知值来确定未知结果
群集技术――群集技术是把数据分成很多组,并分析这些组的特性。
决策树――决策树是采用能用“if-then-else”语言表示的规则来分配数据。
神经网络――神经网络是用来模拟已知函数的数据模型,这一技术通过对数据进行迭代,同时在确定变化模式和趋势上有更大的灵活性。
数据分析
大数据分析的内涵
数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。大数据时代,大数据大数据具有数据量大、 数据结构复杂、 数据产生速度快、 数据价值密度低等特点, 这些特点增加了对大数据进行有效分析的难度, 大数据分析成为当前探索大数据发展的核心内容, 因此, 必须对大数据分析的内涵和外延进行深入剖析。
大数据分析是在数据密集型环境下, 对数据科学的重新思考和进行新的模式探索的产物。严格来说, 大数据更像是一种策略而非技术, 其核心理念就是以一种比以往有效得多的方式来管理海量数据并从中提取价值。大数据分析(BigData Analytics, BDA)是大数据理念与方法的核心, 是指对海量类型多样、 增长快速、 内容真实的数据(即大数据)进行分析, 从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程。有两大技术问题非常关键:一个是文本的分析学, 另一个就是机器学习。因此, 大数据分析是根据数据生成机制, 对数据进行广泛的采集与存储, 并对数据进行格式化清洗, 以大数据分析模型为依据, 在集成化大数据分析平台的支撑下, 运用
云计算技术调度计算分析资源, 最终挖掘出大数据背后的模式或规律的数据分析过程。大数据分析是伴随着数据科学的快速发展和数据密集型范式的出现而产生的一种全新的分析思维和技术, 大数据分析与情报分析、云计算技术等内容存在密切的关联关系。
步骤
典型的数据分析可能包含以下三个步:
1、探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。
2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。
3、推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。
大数据分析方法
大数据分析方法是大数据分析中最重要的研究内容之一, 分析方法的优劣将决定分析结果的有效与否, 将最终影响大数据分析成果的应用。不同类型的大数据需要不同的分析处理方法。复杂数据上的实体识别与传统文本和关系数据上的实体识别不同, 给数据分析带来了新的技术挑战。
列表法
将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件
参数如温度、湿度等。
作图法
作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的
斜率和
截距值等),读出没有进行观测的对应点(内插法)或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如
半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR为纵轴,以1/T为横轴画图,则为一条直线。
其他方法
描述性分析方法(descriptive analytics), 是使用者分析历史数据、资产数据或电网数据进行模式识别,并分析、解释和还原系统或设备过去的状态或场景。
预测性分析方法(predictive analytics),提供前瞻性的分析,让使用者可以参与投资、资产维护或电网运行规划;
规范性分析方法(prescriptive analytics),为使用者提供关于最优运行策略、电网配置和在既定约束下线路路径选择的优化方案推荐。