数据处理是系统工程和自动控制的基本环节。数据处理贯穿于
社会生产和
社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响了人类
社会发展的进程。
基本信息
处理软件
数据处理离不开软件的支持,数据处理软件包括:用以书写处理程序的各种
程序设计语言及其
编译程序,管理数据的
文件系统和
数据库系统,以及各种数据处理方法的
应用软件包。为了保证
数据安全可靠,还有一整套数据安全保密的技术。
方式
根据处理设备的
结构方式、工作方式,以及数据的时间空间分布方式的不同,数据处理有不同的方式。不同的处理方式要求不同的硬件和软件支持。每种处理方式都有自己的特点,应当根据应用问题的实际
环境选择合适的处理方式。数据处理主要有四种分类方式
①根据处理设备的结构方式区分,有
联机处理方式和脱机处理方式。
②根据数据处理时间的分配方式区分,有批处理方式、
分时处理方式和
实时处理方式。
③根据数据处理空间的分布方式区分,有集中式处理方式和
分布处理方式。
④根据计算机
中央处理器的工作方式区分,有单道作业处理方式、
多道作业处理方式和
交互式处理方式。
数据处理对数据(包括数值的和非数值的)进行分析和加工的技术过程。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。比数据分析含义广。随着计算机的日益普及,在计算机
应用领域中,数值
计算所占比重很小,通过计算机数据处理进行
信息管理已成为主要的应用。如测绘制图管理、
仓库管理、财会管理、
交通运输管理,技术
情报管理、
办公室自动化等。在
地理数据方面既有大量
自然环境数据(土地、水、气候、生物等各类资源数据),也有大量社会经济数据(人口、交通、工农业等),常要求进行综合性数据处理。故需建立
地理数据库,系统地整理和存储地理数据减少冗余,发展数据处理软件,充分利用
数据库技术进行
数据管理和处理。
处理过程与工具
数据处理
用计算机收集、记录数据,经加工产生新的信息形式的技术。数据指数字、符号、字母和各种文字的集合。数据处理涉及的加工处理比一般的
算术运算要广泛得多。
④
数据组织:整理数据或用某些方法安排数据,以便进行处理。
⑤数据计算:进行各种算术和
逻辑运算,以便得到进一步的信息。
⑥
数据存储:将
原始数据或计算的结果保存起来,供以后使用。
数据处理的过程大致分为数据的准备、处理和输出3个阶段。在数据准备阶段,将数据脱机输入到
穿孔卡片、
穿孔纸带、磁带或磁盘。这个阶段也可以称为数据的录入阶段。
数据录入以后,就要由计算机对数据进行处理,为此预先要由用户编制程序并把程序输入到计算机中,计算机是按程序的指示和要求对数据进行处理的。所谓处理,就是指上述8个方面工作中的一个或若干个的组合。最后输出的是各种文字和数字的表格和报表。
数据处理系统已广泛地用于各种企业和事业,内容涉及
薪金支付,票据收发、信贷和
库存管理、
生产调度、
计划管理、
销售分析等。它能产生操作报告、金融
分析报告和统计报告等。数据处理技术涉及到
文卷系统、
数据库管理系统、分布式
数据处理系统等方面的技术。
此外,由于数据或信息大量地应用于各种各样的企业和事业机构,工业化社会中已形成一个独立的信息处理业。数据和信息,本身已经成为
人类社会中极其宝贵的资源。信息处理业对这些资源进行整理和开发,借以推动
信息化社会的发展。
数据处理工具
根据数据处理的不同阶段,有不同的专业工具来对数据进行不同阶段的处理。
在数据转换部分,有专业的
ETL工具来帮助完成数据的提取、转换和加载,相应的工具有
Informatica和开源的
Kettle。
在数据存储和计算部分,指的数据库和
数据仓库等工具,有
Oracle,
DB2,
MySQL等知名厂商,
列式数据库在大数据的背景下发展也非常快。
在
数据可视化部分,需要对数据的计算结果进行分析和展现,有BIEE,Microstrategy,Yonghong的Z-Suite等工具。
数据处理的软件有EXCEL MATLAB Origin等等,当前流行的图形可视化和
数据分析软件有Matlab,Mathmatica和Maple等。这些软件功能强大,可满足科技工作中的许多需要,但使用这些软件需要一定的计算机编程知识和矩阵知识,并熟悉其中大量的函数和命令。而使用Origin就像使用
Excel和Word那样简单,只需点击鼠标,
选择菜单命令就可以完成大部分工作,获得满意的结果。
大数据时代,需要可以解决大量数据、
异构数据等多种问题带来的数据处理难题,Hadoop是一个分布式
系统基础架构,由
Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个
分布式文件系统 Hadoop Distributed File System,HDFS。HDFS有着高
容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高
传输率来访问
应用程序的数据,适合那些有着超大
数据集的应用程序。
商务网站
有关
商务网站的数据处理:由于网站的
访问量非常大,在进行一些专业的数据分析时,往往要有针对性的
数据清洗,即把无关的数据、不重要的数据等处理掉。接着对数据进行相关分分类,进行分类划分之后,就可以根据具体的分析需求选择
模式分析的技术,如
路径分析、兴趣
关联规则、聚类等。通过模式分析,找到有用的信息,再通过联机分析(
OLAP)的验证,结合客户登记信息,找出有价值的
市场信息,或发现潜在的市场。
数据处理与数据管理
数据处理是从大量的原始
数据抽取出有价值的信息,即
数据转换成信息的过程。主要对所输入的各种形式的数据进行加工整理,其过程包含对数据的收集、存储、加工、分类、归并、计算、排序、转换、检索和传播的演变与推导全过程。
数据管理是指数据的收集整理、组织、存储、维护、检索、传送等操作,是数据处理业务的基本环节,而且是所有数据处理过程中必有得共同部分。
数据处理中,通常计算比较简单,且数据处理业务中的加工计算因业务的不同而不同,需要根据业务的需要来编写
应用程序加以解决。而数据管理则比较复杂,由于可利用的数据呈
爆炸性增长,且数据的种类繁杂,从数据管理角度而言,不仅要使用数据,而且要有效地管理数据。因此需要一个通用的、使用方便且高效的管理软件,把数据有效地管理起来。
数据处理与数据管理是相联系的,
数据管理技术的优劣将对数据处理的效率产生直接影响。而
数据库技术就是针对该需求目标进行研究并发展和完善起来的
计算机应用的一个分支。
大数据
处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据
处理方法其实有很多,但是根据长时间的实践,
天互数据总结了一个基本的大
数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个
处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。
数据分析与处理方法
采集
在大数据的采集过程中,其主要特点和挑战是
并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的
访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行
负载均衡和分片的确是需要深入的思考和设计。
统计/分析
统计与分析主要利用
分布式数据库,或者分布式
计算集群来对存储于其内的大量数据进行普通的分析和
分类汇总等,以满足大多数常见的分析需求,在这方面,一些
实时性需求会用到EMC的GreenPlum、
Oracle的Exadata,以及基于
MySQL的列式存储Infobright等,而一些批处理,或者基于
半结构化数据的需求可以使用
Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对
系统资源,特别是I/O会有极大的占用。
导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些大量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者
分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自
Twitter的Storm来对数据进行流式计算,来满足部分业务的
实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
挖掘
与前面统计和
分析过程不同的是,
数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别
数据分析的需求。比较典型算法有用于
聚类的K-Means、用于
统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用
数据挖掘算法都以
单线程为主。
随着
全球经济和科学技术的飞速发展,信息技术、
互联网技术的发展也极为快速,其推动了数据走向大数据的时代。当前,我国已经正式迈入了
大数据时代,以信息技术为代表的
先进技术对人们的生活、工作、学习等方面产生了深刻的影响。
大数据时代
信息处理技术发展的趋势:数据和网络的安全性更受重视、
云计算技术得到发展与应用以及
物联网开始应用于多个行业。大数据时代
信息处理技术发展的机遇和挑战:信息处理技术受到重视的程度有所提高、对
数据与信息安全性的要求更高以及行业对专业人才的需求更加迫切。