大数据可视化技术，大数据可视化工具

什么是数据可视化？

数据可视化是指通过可视化表示来传达数据见解的技术。其主要目标是将大型数据集提取为可视化图形，以便轻松了解数据中的复杂关系。它经常与信息图形、统计图形和信息可视化等术语互换使用。

它是 Joe Blitzstein 制定的数据科学流程中的一个步骤，该流程是一个用于处理数据科学任务的框架。在完成数据收集、处理和建模后，我们需要对关系进行可视化处理，以便得出结论。

数据可视化技术也是更广泛的数据表示架构 (Data Presentation Architecture, DPA) 的组成部分，数据表示架构旨在以最有效的方式识别、定位、处理、格式化和呈现数据。

我们为何需要它？

据世界经济论坛称，世界每天会产生 2.5 万兆字节的数据，并且目前 90% 的数据是在过去两年中产生的。数据如此庞大，管理和理解变得愈发困难。任何人都不可能通过逐行浏览数据来了解不同的模式和得出观察结果。数据增长可以作为数据科学流程的一部分进行管理，而数据可视化正是该流程的一部分。
据世界经济论坛称，世界每天会产生 2.5 万兆字节的数据，并且目前 90% 的数据是在过去两年中产生的。数据如此庞大，管理和理解变得愈发困难。任何人都不可能通过逐行浏览数据来了解不同的模式和得出观察结果。数据增长可以作为数据科学流程的一部分进行管理，而数据可视化正是该流程的一部分。

· 改善见解
数据可视化技术可为我们提供传统的描述性统计所无法提供的见解。一个完美示例是 Francis Anscombe 于 1973 年创建的安斯库姆四重奏 (Anscombe’s Quartet)。该图例包含四个不同的数据集，具有几乎相同的方差、平均值、X 和 Y 坐标之间的相关性，以及线性回归线。但是，在图表上绘制时，图案明显不同。在以下图例中，大家可以看到，线性回归模型适用于图 1 和图 3，但多项式回归模型是图 2 的理想选择。该图例强调了对数据进行可视化表示的重要性，仅仅依赖描述性统计数据远远不够。

大数据可视化技术，大数据可视化工具图1

· 更快制定决策

能够收集并快速处理其数据的公司在市场中更具竞争力，因为与竞争对手相比，他们可以更快做出明智的决策。速度是关键，而数据可视化可通过对数据应用可视化表示来帮助理解大量数据。该可视化层通常位于数据仓库或数据湖的顶部，并允许用户以自助方式发现和探索数据。这不仅激发了创造力，而且还减少了 IT 部门分配资源以不断构建新模型的需求。

举个例子，假设一名需要处理 20 个不同广告平台和内部系统的营销分析师需要快速了解营销活动的有效性。手动方法是前往每个系统提取报告、整合数据，然后在 Excel 中进行数据可视化分析。之后，分析师需要查看一堆指标和属性，而且难以形成结论。但是，现代商业智能 (BI) 平台可自动连接数据源和数据可视化层，这样分析师就可以轻松地对数据进行深入分析，并快速得出有关营销表现的结论。

· 基本示例

假设您是一名零售商，您希望比较去年夹克和袜子的销售情况。您可以通过多种方式呈现数据，而表格是最常见的方法之一。以下是使用表格呈现的数据：

大数据可视化技术，大数据可视化工具图2

以上表格非常出色，可以准确显示所需信息。但是，我们很难即时了解趋势和数据所反映的情况。

下面我们看看以线形图可视化呈现的数据：

大数据可视化技术，大数据可视化工具图3

通过可视化图形，我们可以很明显地看到，袜子的销售量非常稳定，在 12 月和 6 月出现小幅上涨。而与之不同，夹克的销售更具季节性，在 7 月份的销量最低。然后逐渐上升，并在 12 月达到峰值，之后逐月降低，并于秋天之前达到最低点。您可以从图表中获取同样的信息，但花费的时间更长。您可以想象一下，如果图表包含成千上万个数据点，会是什么情况。

· 数据可视化背后的科学

信息处理

要了解数据可视化背后的科学，我们首先必须讨论人类如何收集和处理信息。Daniel Kahn 与 Amos Tversky 合作对我们的思维构成方式进行了广泛研究，而结论是我们会使用以下两种方法之一：

系统 I
描述快速、自动和无意识的思维处理。我们在日常生活中经常使用这种方法，可以完成以下任务：

阅读标牌上的文字
确定声源的位置
计算 1+1
识别不同颜色的差异
骑自行车

系统 II
描述缓慢的、逻辑的、不常见的和计算思维，包括：

区分多个并列标牌背后的意义差异
熟记手机号码
理解复杂的社会线索
计算 23×21

通过定义这两种思维体系，Kahn 解释了为何人类难以以统计数据的形式进行思考。他认为，系统 I 思维基于直观推断和偏见来处理我们每天接触的大量刺激。举个例子，如果法官只根据历史案例判断案件，而不管新案件特有的细微差别和差异，那么法官使用的就是直观推断。此外，他还定义了以下偏见：

锚点

这是一种被无关数字左右的倾向。例如，熟练的谈判者会使用这种偏见，他们首先会提出低于自己预期的价格（锚点），然后再提出稍高于锚点的价格。

可得性

在我们脑海中，事件发生的频率并不是对实际概率的准确反映。这是一种心理捷径：假设可以记住的事件更有可能发生。

替代

这是指我们倾向于用简单的问题替代困难的问题。这种偏见也经常被称为合取谬误或“Linda 问题”。以下示例提出了问题：

Linda 今年31岁，单身、直言不讳、非常聪明。她主修哲学。作为一名学生，她非常关注歧视和社会正义问题，并参与了反核示威活动。

以下哪项更有可能？

1) Linda 是一名银行出纳

2) Linda 是一名银行出纳，活跃于女权主义运动

大部分研究参与者选择了第二个选项，即使该选项违反了概率定律。在他们看来，选项二更能代表 Linda，因此他们使用了替代原则来回答问题。

乐观和损失厌恶

Kahn 认为这可能是我们最重要的偏见。乐观和损失厌恶为我们提供了控制错觉，因为我们倾向于只处理那些已经观察到的已知结果的可能性。我们通常不会考虑已知的未知因素或完全不可预见的结果。我们对这种复杂性的忽视，解释了为什么我们会使用较小的样本量对未来结果做出强有力的假设。

框架

框架是指提供选择的上下文。例如，如果以 90% 的存活率而不是 10% 的死亡率作为框架，则更多受试者倾向于选择手术。

沉没成本

这种偏见常常出现在投资领域，人们愿意继续投资于表现欠佳、前景堪忧的资产，而不是退出投资，转向前景更为乐观的资产。

考虑到系统 I 和 II，以及偏见和直观推断，我们应该设法采用合适的数据呈现方式，确保将数据正确地传达给我们的系统 I 思维过程。这样，我们的系统 II 思维过程才能准确地分析数据。我们的无意识系统 I 每秒能够处理大约1,100万条信息，而我们的意识每秒只能处理 40 条信息。

此外，我们还必须考虑每种系统如何利用我们的感官来获取信息。根据 Tor Norretanders 的《用户错觉》(The User Illusion)，在两种系统中，大部分信息都由视觉处理：

大数据可视化技术，大数据可视化工具图4

由于我们的潜意识系统会通过视觉处理更多信息，因此数据可视化是传达数据集模式和见解的完美解决方案。当人们看到可视化数据时，眼睛和大脑只需要不到 500 毫秒的时间即可处理图像中所谓的前注意视觉属性。Colin Ware 在其《信息可视化：设计的感知》(Information Visualization: Perception for Design) 中定义了前注意视觉属性：

颜色
形式
运动
空间位置

每个数据可视化均由这四个组成部分构成，在展示时应谨慎考虑。

以上资料来源：MicroStrategy官网

关于，百度百科是这么解释的：

数据可视化，是关于数据视觉表现形式的科学技术研究。其中，这种数据的视觉表现形式被定义为，一种以某种概要形式抽提出来的信息，包括相应信息单位的各种属性和变量。主要指技术上较为高级的技术方法，而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面，通过表达、建模以及对立体、表面、属性以及动画的显示，对数据加以可视化解释。

其实简单地来说，就是借图像化的形式，在视觉上更直观地传达信息，用多种展现方式（柱形图、条状图、扇形图等）展现事物的联系。

至于数据可视化最基本的目的就是为了精准地反馈数据信息、用简洁清晰的图像减少获取信息的时间、用美观的图像替换基本表格的杂和乱，最终提高工作的效率，利于人们进行决策。而且数据可视化可以用更直观的方式传递信息，更具有说服力，再加上近些年可视化工具的发展和进步，可以展示的图形更多更丰富。

像我常用的Smartbi数据可视化工具就有很多形式的数据图表，除了常用的柱形图、条形图等基本图表以外，还有关系网络图、玫瑰图、预测分析趋势图等等，可以满足不同类型的分析和展示需求。

大数据可视化技术，大数据可视化工具图5