数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
基本信息
数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的
数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息。
数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。
概念
1、
数据空间:是由
n维属性和m个
元素组成的数据集所构成的多维信息空间;
2、数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算;
3、数据分析:指对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据;
4、数据可视化:是指将大型
数据集中的数据以图形图像形式表示,并利用数据分析和
开发工具发现其中未知信息的
处理过程。
数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和
分布式技术等等。
主要应用
BI分析工具,如
Style Intelligence、BO,BIEE, 象形科技ETHINK,Yonghong Z-Suite等。
国内的数据可视化工具,有
BDP商业数据平台-个人版,大数据魔镜,
数据观,
FineBI商业智能软件等。
基本思想
数据
可视化技术的基本思想,是将数据库中每一个
数据项作为单个
图元元素表示,大量的数据集构成数据图像,同时将数据的各个
属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。
基本手段
数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,
美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的
数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息。
数据可视化与
信息图形、
信息可视化、
科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。
适用范围
关于数据可视化的适用范围,存在着不同的
划分方法。一个常见的关注焦点就是信息的呈现。
迈克尔·弗兰德利(2008),提出了数据可视化的两个主要的组成部分:统计图形和
主题图。
《Data Visualization: Modern Approaches》(意为“数据可视化:现代方法”)(2007),概括阐述了数据可视化的下列主题 :
2、新闻的显示
3、数据的显示
4、连接的显示
5、网站的显示
6、文章与资源
7、工具与服务
所有这些主题全都与图形设计和信息表达密切相关。
另一方面,Frits H. Post (2002)则从
计算机科学的视角,将这一领域划分为如下多个子领域:
1、可视化算法与技术方法
2、立体可视化
3、信息可视化
6、交互技术方法与体系架构
数据可视化的成功,应归于其背后基本思想的
完备性。依据数据及其内在模式和关系,利用计算机生成的图像来获得深入认识和知识。其第二个前提就是利用人类
感觉系统的广阔带宽来操纵和解释错综复杂的过程、涉及不同学科领域的数据集以及来源多样的大型抽象数据集合的模拟。这些思想和概念极其重要,对于
计算科学与工程
方法学以及管理活动都有着精深而又广泛的影响。《Data Visualization: The State of the Art》(意为“数据可视化:尖端技术水平”)一书当中重点强调了各种应用领域与它们各自所特有的
问题求解可视化技术方法之间的相互作用。
发展阶段
数据可视化领域的起源,可以追溯到二十世纪50年代
计算机图形学的早期。当时,人们利用计算机创建出了首批图形图表。
科学可视化
1987年,由布鲁斯·麦考梅克、托马斯·德房蒂和玛克辛·布朗所编写的
美国国家科学基金会报告《Visualization in Scientific Computing》(意为“
科学计算之中的可视化”) ,对于这一领域产生了大幅度的促进和刺激。这份报告之中强调了新的基于计算机的
可视化技术方法的必要性。随着计算机
运算能力的迅速提升,人们建立了规模越来越大,复杂程度越来越高的
数值模型,从而造就了形形色色体积庞大的数值型
数据集。同时,人们不但利用医学
扫描仪和
显微镜之类的
数据采集设备产生大型的数据集,而且还利用可以保存文本、数值和
多媒体信息的
大型数据库来
收集数据。因而,就需要高级的计算机图形学技术与方法来处理和可视化这些规模庞大的数据集。
短语“Visualization in Scientific Computing”(意为“科学计算之中的可视化”)后来变成了“Scientific Visualization”(即“
科学可视化”),而前者最初指的是作为科学计算之组成部分的可视化:也就是科学与工程实践当中对于
计算机建模和模拟的运用。
信息可视化
更近一些的时候,
可视化也日益尤为关注数据,包括那些来自商业、财务、
行政管理、数字媒体等方面的大型
异质性数据集合。二十世纪90年代初期,人们发起了一个新的,称为“
信息可视化”的研究领域,旨在为许多
应用领域之中对于抽象的异质性数据集的分析工作提供支持。因此,21世纪人们正在逐渐接受这个同时涵盖科学可视化与信息可视化领域的新生术语“数据可视化” 。
工具软件
可视化工具可以提供多样的数据展现形式,多样的图形渲染形式,丰富的
人机交互方式,支持
商业逻辑的动态
脚本引擎等等。
目前市面上的数据可视化工具多种多样,其中Excel可以说是典型的入门级数据可视化工具。从数据可视化的自动化方面来看,建议使用 Python 编程来实现。Python 中用于数据可视化的库有很多,比较常见的有: Matplotlib(强大、复杂)、Seaborn(基于Matplotlib、简单)、pyecharts(基于Echarts、炫酷)、plotnine(移植于R的ggplot2、图形语法)、PyQtGraph(交互、高性能)。
相关分析
数据采集
数据采集(有时缩写为DAQ或DAS),又称为“
数据获取”或“
数据收集”,是指对现实世界进行采样,以便产生可供计算机处理的数据的过程。通常,数据采集过程之中包括为了获得所需信息,对于信号和波形进行采集并对它们加以处理的步骤。
数据采集系统的组成元件当中包括用于将测量参数转换成为
电信号的传感器,而这些电信号则是由数据采集硬件来负责获取的。
数据分析
数据分析是指为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析与数据挖掘密切相关,但
数据挖掘往往倾向于关注较大型的数据集,较少侧重于推理,且常常采用的是最初为另外一种不同目的而采集的数据。在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。
1、探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学
假设检验手段的补充。该方法由美国著名统计学家约翰·图基命名。
2、定性数据分析:又称为“定性资料分析”、“
定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。
2010年后数据
可视化工具基本以表格、图形(
chart)、地图等可视化元素为主,数据可进行过滤、钻取、数据联动、跳转、高亮等
分析手段做
动态分析。
数据治理
数据治理涵盖为特定组织机构之数据创建协调一致的企业级视图(enterprise view)所需的人员、过程和技术,数据治理旨在:
2、降低遭受监管罚款的风险
3、改善数据的安全性
4、最大限度地提高数据的创收潜力
5、指定信息质量责任
数据管理
数据管理,又称为“
数据资源管理”,包括所有与管理作为
有价值资源的数据相关的学科领域。对于数据管理,
DAMA所提出的正式定义是:“数据资源管理是指用于正确管理企业或机构整个数据
生命周期需求的体系架构、政策、规范和操作程序的制定和执行过程”。这项定义相当宽泛,涵盖了许多可能在技术上并不
直接接触低层数据管理工作(如关系数据库管理)的职业。
数据挖掘
数据挖掘是指对大量数据加以分类整理并挑选出相关信息的过程。数据挖掘通常为
商业智能组织和
金融分析师所采用;不过,在科学领域,数据挖掘也越来越多地用于从现代实验与观察方法所产生的庞大
数据集之中提取信息。
数据挖掘被描述为“从数据之中提取隐含的,先前未知的,潜在有用信息的非凡过程”,以及“从大型数据集或数据库之中提取有用信息的科学”。与
企业资源规划相关的数据挖掘是指对大型交易数据集进行
统计分析和
逻辑分析,从中寻找可能有助于决策制定工作的模式的过程。
电商数据
电商数据可视化,是获得信息的最佳方式之一,通过视觉化方式,快速抓住要点信息。另外,电商数据通过视觉化呈现数据,也揭示了令人惊奇的模式和观察结果,是不可能通过简单统计就能显而易见看到的模式和结论。“通过视觉化,我们把信息变成了一道可用眼睛来探索的
风景线,一种信息地图。当你在迷失在信息中时,信息地图非常实用。”在电商行业尤为如此。