颜林林的个人网站

数据展示,应点到即止,过犹不及 | 书评

2022-02-02 23:07

导言: ……


Image 1

今天推荐一本关于数据展示的书,《用数据讲故事》。

这本书属于入门级,几乎适用于任何行业的大多数岗位的工作汇报。它并不介绍处理数据的具体操作步骤,也不介绍绘制图表该写什么代码,它重点介绍的是,在演示幻灯片或工作报告中,所展示的数据图表,理想情况下应该是什么样子的。书的篇幅不算长,一两个闲暇下午应该足够翻完。内容浅显易懂,又不失实用,示例虽不算多,但都非常清晰简明,且直接突出所要表达的重要原则建议。

其中让我印象深刻的一点是,数据展示其实宜少不宜多,这扭转了我原本在数据可视化方面的错误倾向。而在后来的日常工作中,我发现其他人也经常会有类似的糟糕实践,总喜欢用图表堆工作量而非呈现结论,造成信息传递十分低效,于是我也曾反复做过这本书的推荐。可以说,掌握这本书的主要内容,将其应用到自己的工作中,就已经胜过职场上90%以上的人。

2

关于数据图表绘制,我与大多数人一样,曾舍本逐末,仅为技术而技术,不断挑战“繁琐”和“炫酷”,而忘了技术钻研本身的实用目的:数据的可视化,更重要的是为了回答某个问题,为了发现规律,为了讲述故事。

技术的修炼提升,是一种对智力的自我训练,这本身很容易带来成就感和愉悦感。在数据图表展示中,最常见的一种情况是,在同样的有限面积中,如何最大限度地包含进更多的数据信息。这经常会演变成某种畸形的追求目标,尤其是在熟练掌握ggplot2的用法后,因为叠加信息实在太容易了。

以展示一组数据的分布为例,经典的箱线图,就是一个“包含大量信息”的体现:箱子表示了上下四分位数的位置,须线段表示1.5倍四分差延伸(离群值的边界),箱子中还有线段和点分别表示中位数与平均数。再往后,还能将散点叠加上去,标出各原始数据。或者用核函数曲线包络一个曲边,画成小提琴图。又或者综合小提琴图和散点,画出像天气图标般的云雨图。

在一幅图上塞入尽可能多的信息后,对于传达信息而言,未必是有效的。因为重点信息有可能被淹没在众多不同维度的展示元素中,得不到突出,难以被发现。

3

这本书中提到一个实例,很有代表性,这里截取摘录出来,供观赏:

Image

的确是“一图胜千言”。

而更有价值的是,书中将上述图形改造的过程,进行了详细分解,分成了多个步骤,每一步骤针对一种可视化问题进行调整,一步步地从上图改造成为下图。这是一个思维训练的过程,对于认识和学习如何做出更好的图表,是非常有效的。

4

最后,必须提及的一点,是关于数据的选择,包括展示内容及角度的选择。

关于讲故事,必然会做的一件事,就是对材料进行筛选。上面的例子,为了突出招聘需求,在最终展示的图形中,也显然是做过“裁剪”的,把不相关的信息都弱化或去掉了。即使没有这样的“裁剪”,受限于信息传递窗口大小,我们也不可能把所有数据细节都完全展示给每位读者,所以,数据分析和可视化,本身就是一个筛选加工的过程。

这种操作很容易走入另一个极端,即通过对材料或呈现方式“刻意裁剪”,而将读者误导入其他预设的结论。有时候,这样的倾向是否恰当,是没有清晰和严格界限的。这就需要图形的作者洁身自好,恪守基本的原则底线,尽可能避开对灰色地带的挑战,而更多保持客观正直的态度了。

--- END ---

注:本文首发表于“不靠谱颜论”公众号,并同步至本站。